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中 文 版 推荐 序 一 


说 起 来 ， 我 和 本 书 的 作 译 者 倒是 都 有 些 缘分 。 

我 和 本 书 的 第 一 作者 本 杰 明 J. 埃 文 斯 曾 有 过 一 面 之 绿 。 那 是 在 2014 年 ， 我 第 一 次 参与 
QCon 全 球 软件 开发 大 会 (上 海 站 ) 的 策划 。 当 时 我 想 邀 请 一 位 在 Java 领域 比较 有 影响 力 
的 技术 专家 来 做 主题 演讲 ， 于 是 轧 转 联系 到 了 埃 文 斯 先生 。 他 非常 友善 ， 第 一 时 间 表示 愿 
意 来 分 享 。 他 的 演讲 “JIT 编译 和 Hotspot JVM 内 部 探秘 ”给 参 会 者 留 下 了 深刻 印象 。 此 
后 ， 我 在 InfoQ 上 也 翻译 过 他 的 多 篇 技术 文章 。 

本 书 (英文 版 ) 出 版 之 后 ， 我 第 一 时 间 就 关注 了 。 听 说 我 的 好 朋友 兽 波 要 担纲 翻译 ， 我 也 
非常 期 待 。 在 他 翻译 过 程 中 ， 我 有 孝 提 前 看 到 了 译 稿 ， 也 跟 他 做 了 很 多 沟通 。 整 体 读 下 
来 ， 能 感受 到 他 的 用 心 。 因 为 我 也 翻译 过 几 本 书 ， 所 以 颇 能 体会 译 者 的 辛苦 。 从 一 条 条 更 
新 记录 到 与 编辑 反复 沟通 ， 都 能 体现 本 书 译 者 的 认真 和 负责 。 

我 感觉 本 书 的 最 大 价值 在 于 作者 们 所 要 传达 的 理念 。 在 性 能 调 优 方 面 ， 没 有 任何 灵 有 丹 妙 
药 。 任 何 性 能 决策 ， 都 要 通过 合理 的 性 能 测试 来 检验 。 本 书 不 止 一 次 提 到 ， 读 者 不 能 盲目 
使 用 书 中 结论 ， 如 果 要 在 自己 的 项 目 中 应 用 ， 必 须 亲 自 通过 实验 来 检测 。 

本 书 有 些 章节 经 常 让 人 会 心 一 笑 ， 比 如 在 第 4 章 讲 到 性 能 反 模 式 的 地 方 ， 有 一 条 叫 “ 按 照 
坊间 传说 调 优 "。 大 家 可 能 有 过 这 种 经 验 ， 时 不 时 就 会 在 朋友 圈 看 到 有 人 转发 “优化 Java 
的 xxx 条 规则 ”"， 诸 如 “尽量 重用 对 象 ”“ 尽 量 用 final” 之 类 ， 倒 是 简单 好 记 ， 但 细 究 起 
来 ， 很 多 是 十 多 年 前 的 “ 野 路 子 "， 没 有 明确 的 适用 范围 ， 仿 佛 放 之 四 海 而 皆 准 ， 可 叹 这 
种 坊间 传说 还 颇 有 市 场 。 希 望 本 书 能 够 沪 涤 这 种 风气 。 

本 书 提 到 的 很 多 性 能 工具 也 是 读者 应 该 重点 关注 的 。 像 JITWatch 以 及 各 种 剖析 工具 ， 本 书 
分 门 别 类 给 出 了 介绍 和 建议 ， 对 于 读者 深入 理解 JVM 和 定位 性 能 问题 的 根源 都 极 具 价值 。 
建议 读者 认真 研究 ， 也 将 它们 放 入 自己 的 工具 箱 中 ， 使 其 成 为 性 能 调 优 的 利器 。 


纸 上 得 来 终 觉 线 ， 绝 知 此 事 要 躬 行 。 期 待 本 书 能 给 大 家 带 来 真正 的 价值 。 
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为 了 维护 方便 ， 我 的 团队 刚刚 用 Java 重 写 了 唯 品 会 一 个 顶级 性 能 的 C++ 应 用 ， 因 为 是 打 
流量 的 关键 节点 ， 原 版 单机 9 万 请 求 / 秒 已 经 是 颇 为 瞩目 的 数字 ， 结 果 翻 写 的 版 本 竟然 反 
超 了 30% 有 余 ， 达 到 了 13 万 请 求 / 秒 , 一举 扭转 了 往常 C++ 程序 员 对 Java 程序 员 的 惯性 
鄙视 链 。 

正在 兴 头 上 ， 收 到 了 曾 波 翻译 的 《Java 性 能 优化 实践 : JVM 调 优 策略 、 工 具 与 技巧 》 译 
稿 。 说 起 同类 题材 的 书 ， 上 一 本 我 觉得 讲 得 面面俱到 的 是 三 秀 涛 翻译 的 《Java 性 能 权威 指 
南 》， 但 其 成 于 2016 年 ， 内 容 难 免 有 些 过 时 。 本 书 则 是 一 本 内 容 更 全 面 、 更 现代 ， 讲 解 更 
深入 的 接力 者 。 

如 果 光 看 书 名 ， 特 别 是 英文 版 书 名 ， 大 家 可 能 会 觉得 这 是 一 本 recipes、cookbooks 、tips、 
tricks 以 及 各 种 零 零 碎 碎 解决 特定 问题 的 知识 点 大 杂烩 ， 但 翻 开 目 孙 ， 可 以 看 出 3 位 合 著 
者 很 用 心地 给 大 家 展示 了 一 个 关于 Java 性 能 优化 的 更 完整 的 知识 框架 。 

借用 书 中 的 一 句 话 :“ 要 成 为 一 名 赛车 手 ， 你 不 必 成 为 工程 师 ， 但 是 一 定 要 有 机 械 共 
鸣 。 “机 械 共鸣 ”这 一 说 法 来 自 伟大 的 赛车 手 Jackie Stewart， 他 曾 3 次 获得 世界 汽车 联合 
会 一 级 方程 式 锦标 赛 冠军 。 他 相信 最 佳 车 手 对 机 械 如 何 工 作 有 是 够 的 理解 ， 所 以 能 与 赛车 
协调 一 致 。 你 不 必 熟 读 The Java Language Specification， 不 必 成 为 R 大 (R 大 在 我 们 这 和 群 
人 中 就 是 神 ) ， 但 对 于 JVM， 必 须知 道 它 如 何 编译 、 如 何 运 行 、 如 何 垃圾 收集 。 

本 书 除了 对 原理 进行 描述 外 ， 还 对 工具 做 了 介绍 。 从 我 见 过 最 详尽 的 JMH 介绍 到 
jitwatch， 甚 至 jHiccup 都 在 本 书 中 出 现 了 ， 而 在 看 到 作者 们 列 出 JProfiler 和 Yourkit 后 ， 将 
它们 大 手 一 挥 归 到 传统 Profiler 中 去 ， 然 后 Async Profiler 的 登场 ， 让 我 放下 了 心 。 

祝 每 位 Java 程序 员 读 完 本 书后 ， 都 一 边 享受 Java 成 熟 的 类 库 ， 一 边 感 受 JIT 不 输 于 C++/ 
Rust 们 AOT 预 编译 的 硬 气 ， 一 边 赞美 最 新 JDK 的 垃圾 收集 工具 ZGC， 一 边 等 待 JVM 
协 程 项 目 Loom 的 落地 ， 事 有 不 谐 时 一 起 拿 出 火焰 图 工具 Async Profiler 和 线 上 诊断 工具 

















































































































Arthas 找 瓶颈 ， 最 后 都 写 出 自己 性 能 灿烂 的 代码 。 


江南 白衣 ( 肖 样 )， 唯 品 会 架构 专家 
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你 如 何 定义 性 能 ? 


当 被 问 及 应 用 程序 的 性 能 时 ， 大 部 分 开发 人 员 会 假定 他 们 需要 测量 某 些 速度 值 ， 比 如 每 
秒 交 易 数 ， 或 者 处 理 了 多 少 吉 字 节 (GB) 数据 ……， 要 在 尽 可 能 短 的 时 间 里 完成 大 量 工 
作 。 如 果 你 是 应 用 程序 架构 师 ， 那 你 可 能 会 测量 更 广泛 的 指标 。 与 按 直线 逻辑 执行 的 程序 
相 比 ， 你 或 许 更 关注 资源 利用 率 。 你 可 能 更 重视 服务 间 连 接 的 性 能 ， 而 不 是 服务 本 身 的 性 
能 。 如 有 果 你 要 为 公司 做 出 业务 决策 ， 应 用 程序 的 性 能 很 多 时 候 不 是 用 时 间 而 是 用 美元 来 计 
算 的 。 你 可 能 会 与 开发 人 员 和 架构 师 和 争论 资源 分 配 ， 权 衡 DevOps 的 成 本 和 完成 公司 工作 
所 需要 的 时 间 。 


不 管 你 认同 哪 种 角色 ， 所 有 这 些 指标 都 很 重要 。 


我 从 1996 年 开始 开发 Java 应 用 程序 。 那 时 我 刚 辞 掉 第 一 份 工作 一 一 在 明尼苏达 大 学 商学 
院 编 写 AppleScript CGI， 转 而 为 Web 开发 团队 维护 服务 端 Perl 应 用 程序 。 当 时 Java 还 是 
非常 新 的 东西 ， 当 年 年 初 才 发 布 第 一 个 稳定 版 本 1.0.2。 我 接手 的 任务 是 开发 点 有 用 的 东西 。 


在 那个 时 候 ， 要 提升 Java 应 用 程序 的 性 能 ， 最 好 的 方法 是 用 其 他 语言 重 写 。 那 时 Java 还 
没有 即时 编译 器 (JIT compiler) ， 也 没有 并 行 和 并 发 垃圾 收集 器 ， 离 Java 技术 统治 服务 端 
还 早 得 很 。 但 是 我 们 中 的 很 多 人 想 使 用 Java， 因 此 我 们 尝试 了 各 种 技巧 来 使 代码 良好 地 运 
行 。 我 们 编写 巨大 的 方法 ， 以 避免 方法 分 派 (dispatch) 成 本 。 因 为 垃圾 收集 很 慢 ， 而 且 有 
破坏 性 ， 所 以 我 们 使 用 了 对 象 池 并 复 用 对 象 。 我 们 还 使 用 了 大 量 的 全 局 状态 和 静态 方法 。 
我 们 编写 的 是 非常 糟糕 的 Java 代码 ， 但 就 当时 而 言 是 有 效 的 。 


1999 年 ， 情 况 开 始 改 变 。 


任何 对 速度 有 要 求 的 地 方 ， 我 们 都 要 与 Java 缠 斗 不 休 ， 如 此 多 年 之 后 ，JIT 技术 向 我 们 走 
来 了 。 有 了 内 联 方法 的 编译 器 ， 与 将 巨型 组 件 分 解 成 多 个 小 块 相 比 ， 方 法 调用 的 数量 已 经 
不 那么 重要 。 我 们 愉快 地 拥抱 面向 对 象 的 设计 ， 将 方法 拆 分 成 小 段 ， 围 绕 各 种 事物 封装 接 
口 。 因 为 我 们 正在 编写 良好 的 Java 代码 ， 而 且 JIT 编译 器 喜欢 这 种 代码 ， 所 以 我 们 对 Java 
的 每 个 版 本 都 在 提升 运行 速度 感到 惊奇 。Java 赶 超 了 服务 器 上 的 其 他 技术 ， 使 得 我 们 可 以 
用 更 丰富 的 抽象 构建 越 来 越 大 、 越 来 越 复杂 的 应 用 程序 。 
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与 此 同时 ， 垃 圾 收集 器 也 迅速 改进 。 现 在 再 使 用 池 化 技术 往往 不 如 再 分 配 来 得 划算 。 很 多 
垃圾 收集 器 提供 了 多 线程 操作 ， 我 们 开始 看 到 低 延 迟 、 近 平 不 影响 应 用 程序 的 并 发 垃圾 收 
集 器 。 标 准 实践 朝 着 开发 人 员 可 以 放心 大 胆 地 创建 和 丢弃 对 象 的 方向 发 展 ， 并 承诺 足够 陪 
明 的 垃圾 收集 器 会 处 理 好 这 一 切 。 至 少 就 当时 而 言 这 是 有 效 的 。 


技术 的 问题 是 ， 它 总 是 在 革 自 己 的 命 。 随 着 JIT 和 垃圾 收集 技术 的 改进 ， 优 化 应 用 程序 性 
能 的 路 径 也 越 来 越 难以 捉摸 。 即 使 JVM 可 以 优化 我 们 的 代码 ， 并 且 让 对 象 几 乎 没什么 成 
本 ， 但 应 用 程序 和 用 户 的 需求 也 在 持续 增长 。 


有 些 时 候 ， 甚 至 是 大 部 分 时 候 ,“ 好 的 ”编码 模式 盛行 : 小 方法 会 恰当 内 联 ， 接 口 和 类 型 
检查 成 本 变 低 ，JIT 编译 器 生成 的 原生 代码 紧凑 又 高 效 。 但 是 其 他 时 候 ， 考 虑 到 编译 器 和 
CPU 的 限制 ， 我 们 需要 手动 调整 代码 ， 改 变 抽象 和 架构 。 有 些 时 候 ， 对 象 儿 乎 是 没什么 成 
本 的 ， 都 不 用 考虑 我 们 会 消耗 内 存 带 宽 和 垃圾 收集 周期 。 其 他 时 候 ， 我 们 要 处 理 TB 甚至 
更 大 规模 的 数据 集 ， 这 时 候 即 使 是 最 好 的 垃圾 收集 器 和 内 存 子 系统 ， 也 要 承受 很 大 压力 。 


而 现在 ， 性 能 问题 的 答案 是 了 解 你 的 工具 。 通 常 这 意味 着 你 不 但 要 了 解 Java 语言 是 如 何 
工作 的 ， 还 要 知道 JVM 类 库 、 内 存 、 编 译 器 、 垃 圾 收集 器 和 应 用 程序 运行 所 在 的 硬件 是 
如 何 交互 的 。 在 我 从 事 JRuby 项 目的 工作 中 ， 我 学 到 一 个 有 关 JVM 的 不 变 的 真理 : 所 有 
的 性 能 问题 都 没有 单一 的 解决 方案 ， 而 是 有 很 多 解决 方案 。 技 巧 就 是 找到 那些 方案 ， 并 
把 最 能 满足 要 求 的 拼凑 起 来 。 现 在 你 有 了 一 个 应 对 性 能 之 战 的 秘密 武器 ， 就 是 你 要 阅读 
的 这 本 书 。 

朋友 ， 翻 过 这 一 页 ， 去 发 现 可 以 使 用 的 工具 和 技术 吧 ， 那 是 宝贵 的 财富 。 学 习 如 何平 衡 应 
用 程序 的 设计 和 可 用 的 资源 ， 如 何 监 控 和 调 优 JVM， 如 何 利用 比 老 旧 的 类 库 和 模式 更 高 效 
的 最 新 Java 技术 ， 如 何 让 Java 运行 如 飞 | 


对 Java 开发 人 员 而 言 ， 这 是 一 个 激动 人 心 的 时 刻 ， 从 来 没有 这 么 多 机 会 在 Java 平台 上 构 
建 高 效 、 响 应 式 的 应 用 程序 。 让 我 们 开始 吧 。 


一 一 Charlie Nutter， 红 帆 中间 件 首席 软件 工程 师 
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排版 约定 

本 书 使 用 如 下 排版 约定 。 

黑体 字 
表示 新 术语 和 重点 强调 的 内 容 。 

等 宽 字 体 (constant width) 
用 于 程序 清单 ， 以 及 在 段落 内 表示 程序 元 素 ， 比 如 变量 或 函数 名 、 数 据 库 、 数 据 类 型 、 
环境 变量 、 语 句 和 关键 字 。 

带 尖 括号 的 等 宽 字体 (<constant width>) 


表示 应 该 使 用 用 户 提 供 的 值 或 根据 上 下 文 确定 的 值 来 禁 换 的 文本 。 




















此 图 标 代表 提示 或 建议 。 














此 图 标 代表 一 般 性 说 明 。 























此 图 标 代表 警告 或 提醒 。 
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使 用 代码 示例 


书 中 示例 的 源 代码 请 到 图 灵 社 区 本 书 主 页 http://ituring.cn/book/2085“ 随 书 下 载 ” 处 下 载 。 

本 书 是 帮助 你 完成 工作 的 。 一 般 来 说 ， Cd 你 可 以 在 自己 的 程序 

或 文档 中 使 用 。 除 非 大 量 复制 本 书 代码 ， 否 则 你 不 需要 联系 我 们 获取 授权 。 例 如 ， 使 用 本 
书 中 的 几 段 代码 编写 一 个 程序 不 需 要 获取 授权 。 销 售 或 者 再 发 布 OReilly 图 书 中 代码 的 光 
盘 ， 则 需要 获取 授权 。 引 用 本 书 以 及 示例 代码 来 回答 问题 不 需要 获取 授权 。 将 本 书 中 的 大 
量 示 例 代 码 整 合 到 你 的 产品 文档 中 ， 则 需要 获取 授权 。 

在 使 用 代码 时 ， 我 们 希望 能 标明 出 处 ， 但 并 不 强求 。 出 处 一 般 包 括 书 名 、 作 者 、 出 版 商 和 
ISBN。 例 如 ，“ Optimizing Java by Benjamin J. Evans, James Gough, and Chris Newland (O’Reilly). 
Copyright 2018 Benjamin J. Evans, James Gough, and Chris Newland, 978-1-492-02579-5”。 


如 果 还 有 关于 使 用 代码 的 未 尽 事宜 ， 可 以 随时 与 我 们 联系 : permissions@oreilly.com。 


O'Reilly 在 线 学 习 M2 = (O'Reilly Online Learning) 


OO REILLY” 近 40 年 来 ，O’Reilly Media 致力 于 提供 技术 和 商业 培训 、 知 识 和 
卓越 见解 ， 来 帮助 众多 公司 取得 成 功 。 

我 们 拥有 独一无二 的 专家 和 革新 者 组 成 的 庞大 网 络 ， 他 们 通过 图 书 、 文 章 、 会 议和 我 们 的 

在 线 学 习 平台 分 享 他 们 的 知识 和 经 验 。O'Reilly 的 在 线 学 习 平台 允许 你 按 需 访 问 现场 培训 

课程 、 深 入 的 学 习 路 径 、 交 互 式 编程 环境 ， 以 及 O"Reilly 和 200 多 家 其 他 出 版 商 提供 的 大 

量 文 本 和 视频 资产。 有关 的 更 多 信息 ， 请 访问 http://oreilly.com。 


联系 我 们 
与 本 书 有 关 的 评论 和 问题 ， 请 发 给 出 版 社 。 


美 2 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京) 有 限 公司 


本 书 有 一 个 页 面 ， 可 以 在 那儿 找到 本 书 的 勘误 '、 示 例 代码 和 其 他 信息 : https://www.oreilly. 
com/library/view/optimizing-java/9781492039259/。 


与 本 书 有 关 的 评论 或 技术 问题 ， 请 发 送 电 子 邮件 至 bookquestions@oreilly.com。 
要 了 解 更 多 我 们 出 版 的 图 书 、 课 程 、 会 议和 新 闻 ， 请 访问 http:/www.oreillycom。 























































































































注 1: 读者 也 可 以 到 图 灵 社 区 本 书页 面 查看 和 提交 勘误 ， 网 址 是 ，ituring.cn/book/2085。 一 一 编者 注 
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xx | 前 言 


我 们 在 Facebook 的 地 址 : http://facebook.com/oreilly。 
在 Twitter 上 的 动态 : http://twitter.com/oreillymedia。 


在 YouTube 上 关注 我 们 : http:/www.youtube.com/oreillymedia。 
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第 1 章 


明确 优化 与 性 能 





优化 Java 或 其 他 语言 代码 的 性 能 经 常 被 视 作 一 种 暗黑 艺术 。 性 能 分 析 有 种 神秘 感 ， 人 们 常 
常 将 其 看 作 孤 独 的 黑客 在 绞 尽 脑汁 、 深 思 熟 虑 之 后 练 就 的 手艺 。( 孤 独 的 黑客 也 是 好 莱 坞 
最 喜欢 的 关于 计算 机 和 操作 人 员 的 电影 桥 段 之 一 。) 画面 是 这 样 的 : 一 个 人 能 够 深入 了 解 
某 个 系统 ， 提 出 神奇 的 解决 方案 ,使 计算 机 运行 得 更 快 。 

影像 中 经 常 夹杂 这 种 不 季 但 常见 的 情况 : 软件 团队 没 那么 重视 性 能 。 进 而 出 现 的 场景 是 ， 
只 有 当 系 统 已 经 陷入 麻烦 时 ， 团 队 才 会 加 以 分 析 。 所 以 也 就 需要 性 能 “英雄 ”来 救 场 了 。 
不 过 现实 情况 有 点 不 同 。 


事实 是 ， 性 能 分 析 是 坚实 的 经 验 主义 和 软 性 的 人 类 心理 学 的 奇异 组 合 。 重 点 在 于 ， 一 方面 
是 可 观测 指标 的 绝对 数字 ， 另 一 方面 是 最 终 用 户 和 干系 人 如 何 看 待 这 些 数 字 。 本 书 其 余部 
分 的 主题 就 是 如 何 解决 这 一 明显 的 悖 论 。 


1.1 关于 Java 性 能 的 误解 

多 年 来 ， 用 Google 搜索 “Java performance tuning”， 出 现 的 三 篇 最 热门 文章 之 一 是 于 1997 
年 到 1998 年 左右 发 表 的 文章 ， 这 篇 文章 在 Google 搜索 引擎 出 现 的 早期 就 被 纳入 其 索引 
中 。 这 个 页 面 之 所 以 一 直 在 搜索 结果 中 排 在 前 列 ， 是 因为 其 初始 排名 比较 高 ， 带 来 了 很 多 
访问 ， 而 这 些 访问 又 反 过 来 提升 了 其 排名 。 

该 页 面 上 提供 的 建议 已 经 完全 过 时 ， 不 再 成 立 ， 很 多 情况 下 甚至 对 应 用 程序 有 害 。 然 而 ， 
因为 该 页 面 在 搜索 结果 中 的 有 利 位 置 ， 很 多 的 开发 人 员 能 看 到 它 ， 所 以 他 们 很 有 可 能 受到 
这 些 糟糕 建议 的 影响 。 

例如 ， 在 很 早 的 Java 版 本 中 ， 方 法 分 派 (method dispatch) 性 能 很 差 。 作 为 权宜 之 计 ， 有 
些 Java 开发 人 员 提倡 避免 编写 小 方法 ， 而 建议 编写 大 方法 。 当 然 ， 随 着 时 间 的 推移 ， 虚 方 
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法 分 派 的 性 能 已 经 得 到 极 大 提升 。 不 仅 如 此 ， 借 助 现 代 Java 虚拟 机 (Java virtual machine， 
JVM) ， 特 别 是 自动 内 联机 制 ， 目 前 大 部 分 调用 点 (call site) 已 经 消除 了 虚 方法 分 派 。 按 
照 “ 把 所 有 东西 集中 到 一 个 方法 中 ”这 个 建议 编写 的 代码 处 于 很 大 的 劣势 ， 因 为 它 对 现代 
即时 (just-in-time，JIT) 编译 器 很 不 友好 。 

我 们 还 不 知道 这 个 糟糕 的 建议 会 给 应 用 程序 的 性 能 带 来 多 少 不 利 影响 ， 但 这 个 例子 清楚 地 
说 明了 不 使 用 量化 和 可 验证 的 方式 来 优化 性 能 是 有 害 的 。 这 也 说 明 对 于 互联 网 上 的 信息 ， 
我 们 不 应 尽 信 。 

Java 代码 的 执行 速度 是 高 度 动态 的 ， 并 且 从 根本 上 取决 于 底层 的 Java 虚拟 

机 。 老 的 Java 代码 ， 即 使 不 重新 编译 ， 在 比较 新 的 JVM 上 可 能 也 可 以 更 快 
地 执行 。 






































正如 你 所 想象 的 ， 出 于 这 个 原因 〈 甚 他 原因 后 面 再 讨论 )， 本 书 不 是 一 本 代码 性 能 技巧 手 
册 。 相 反 ， 我 们 会 聚焦 于 好 的 性 能 工程 所 涉及 的 一 系列 方面 : 

。 整个 软件 生命 周期 内 的 性 能 方法 论 ， 

。 适用 于 性 能 的 测试 理论 ， 

。 度量 、 统 计 和 工具 ， 

。 分 析 技 能 (包括 系统 和 数据 ) ; 

。 底层 的 技术 与 机 制 。 


本 书后 面 会 引入 一 些 启发 式 的 代码 级 优化 技术 ， 不 过 这 些 技术 都 附带 了 开发 人 员 在 使 用 之 
前 应 该 注意 的 警告 和 权衡 。 

在 正确 理解 所 给 建议 的 上 下 文 之 前 ， 不 要 直接 跳 到 那些 章节 就 开始 具体 应 用 

这 些 技术 。 如 果 你 缺乏 正确 的 理解 ， 那 么 盲目 应 用 这 些 技术 可 能 次 大 于 利 。 


























总 之 ， 就 是 : 

。 JVM 没有 神奇 的 开关 ， 让 你 的 代码 变 得 “更 快 ”; 
。 没有 让 Java 运行 更 快 的 “秘诀 与 技巧 ”; 

。 没有 对 你 隐藏 的 秘密 算法 。 


随 着 主题 的 展开 ,我 们 会 更 详细 地 讨论 这 些 误 解 ， 同 时 介绍 开发 人 员 在 做 Java 性 能 分 析 时 
常 犯 的 一 些 错 误 和 相关 问题 。 还 在 看 吧 ? 很 好 。 我 们 来 谈 谈 性 能 。 


| I 
1.2 Java 性 能 概览 
要 理解 Java 性 能 为 什么 是 这 样 的 ， 我 们 先 来 看 看 Java 之 父 James Gosling 的 一 句 很 经 典 的 话 : 
Java 是 一 门 蓝 领 语言 。 它 不 是 博士 论文 材料 ， 而 是 用 于 工作 的 语言 。 


也 就 是 说 ，Java 一 直 是 一 种 极其 实用 的 语言 。 它 一 开始 对 性 能 的 态度 是 ， 只 要 环境 足够 快 
并 且 能 提升 开发 效率 ， 就 可 以 牺牲 原始 性 能 。 所 以 直到 近 些 年 ， 随 着 诸如 HotSpot 之 类 的 
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JVM 日 趋 成 熟 和 进步 ，Java 环境 才 开始 适合 于 高 性 能 计算 应 用 程序 。 

这 种 实用 性 在 Java 平台 中 以 多 种 方式 体现 出 来 ， 但 最 明显 的 一 点 就 是 使 用 了 托管 子 系 
统 。 其 理念 是 ， 开 发 人 员 无 须 担 心 托管 环境 下 的 某 些 功能 细节 ， 而 代价 是 放弃 对 底层 的 
一 些 控制 。 

最 明显 的 例子 当然 是 内 存 管理 了 。JVM 以 可 播 拔 垃圾 收集 子 系统 的 形式 提供 自动 内 存 管 
理 ， 所 以 程序 员 不 必 和 手动 跟踪 内 存 。 
托管 子 系统 在 JVM 中 随处 可 见 ， 它 们 的 存在 给 JVM 应 用 程序 的 运行 时 行为 
带 来 了 额外 的 复杂 性 。 





















































正如 下 一 市 将 讨论 的 那样 ，JVM 应 用 程序 复杂 的 运行 时 行为 要 求 我 们 把 应 用 程序 看 作 处 于 
测试 下 的 实验 。 这 会 让 我 们 思考 观测 到 的 统计 数据 ， 也 有 了 一 个 不 幸 的 发 现 。 


观测 到 的 JVM 应 用 程序 的 性 能 数据 往往 不 是 正 态 分 布 的 ， 这 意味 着 基本 的 统计 技术 〈 比 
如 标准 差 和 方差 ) 不 适合 处 理 来 自 JVM 应 用 程序 的 结果 。 这 是 因为 很 多 基本 的 统计 方法 
隐 含 着 一 个 假设 ， 即 结果 是 正 态 分 布 的 。 

一 种 理解 方式 是 ， 对 于 JVM 应 用 程序 ， 异 常 值 非常 重要 ， 比 如 低 延 迟 交 易 应 用 程序 。 这 
意味 着 测量 值 的 采样 也 存在 问题 ， 因 为 它 很 容易 错过 最 重要 的 精确 事件 。 

最 后 提醒 一 句 : 我 们 很 容易 被 Java 性 能 测量 值 误 导 。 环 境 的 复杂 性 意味 着 很 难 隔离 系统 的 
各 个 方面 。 
测量 也 有 成 本 ， 频 葡 采 样 (或 者 记录 每 个 结果 ) 可 能 会 对 所 记录 的 性 能 数字 造成 明显 的 影 
响 。Java 性 能 数字 的 特性 要 求 我 们 使 用 一 些 复杂 的 统计 方法 ， 而 将 基本 的 技术 应 用 于 Java/ 
JVM 应 用 程序 时 ， 经 常会 产生 不 正确 的 结果 。 


> Ri | 和 EC 
1.3 作为 实验 科学 的 性 能 
和 大 多 数 现代 软件 系统 一 样 ，Java/JVM 软件 栈 非常 复杂 。 事 实 上 ， 因 为 JVM 具有 高 度 优 
化 和 自 适 应 的 特性 ， 所 以 构建 于 JVM 之 上 的 生产 系统 有 时 会 表现 出 一 些 非常 微妙 且 复 杂 
的 性 能 行为 。 这 种 复杂 性 和 摩尔 定律 以 及 该 定律 所 表示 的 硬件 能 力 的 空前 增长 有 关 。 
计算 机 软件 产业 最 为 惊人 的 成 就 是 其 持续 不 断 地 抵消 了 硬件 产业 所 取得 的 稳定 而 
巨大 的 成 果 。 




























































































一 一 Henry Petroskl 


尽管 有 些 软件 系统 浪费 了 硬件 产业 过 去 的 成 果 ， 但 是 JVM 所 代表 的 是 某 种 工程 上 的 胜利 。 
从 20 世纪 90 年 代 末 诞生 以 来 ，JVM 已 经 发 展 为 一 个 高 性 能 的 、 通 用 的 执行 环境 ， 能 够 很 
好 地 利用 新 的 硬件 特性 。 但 是 ， 与 任何 复杂 的 高 性 能 系统 一 样 ，JVM 需要 我 们 有 相当 程度 
的 技能 和 经 验 才能 从 中 获得 最 大 的 收益 。 


如 果 不 能 清晰 地 定义 测量 ， 那 比 无效 还 要 糟糕 。 











Eli Goldratt 
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因此 ，JVM 性 能 调 优 是 技术 、 方 法 论 、 可 测 的 量 和 工具 的 综合 。 它 的 目的 是 以 系统 所 有 者 
或 用 户 所 期 望 的 方式 产生 可 以 测量 的 输出 。 换 名 话说 ， 性 能 是 一 门 实验 科学 ， 它 通过 以 下 
方式 实现 预期 结果 : 

。 定义 期 望 的 结果 ， 

。 测量 现 有 系统 ， 

。 确定 要 实现 需求 所 需 的 工作 ， 

。 开始 某 个 改进 操作 ， 

。 重新 测试 ; 

。 确定 目标 是 否 实现 。 

定义 和 确定 预期 性 能 结果 的 过 程 创建 了 一 组 量化 的 目标 。 确 定 应 该 测量 什么 并 记录 这 些 目 
标 非 常 重要 ， 而 它们 将 成 为 项 目 工 件 和 可 交付 成 果 的 一 部 分 。 由 此 我 们 可 以 看 到 ， 性 能 分 
析 是 建立 在 定义 和 实现 非 功 能 性 需求 的 基础 之 上 的 。 

正如 前 面 提 到 的 ， 这 个 过 程 可 不 是 占 下。 相反 ， 我 们 依赖 于 统计 数据 和 对 结果 的 适当 处 
理 。 第 5 章 将 介绍 基本 的 统计 技术 ， 用 于 精确 处 理 某 个 JVM 性 能 分 析 项 目 生 成 的 数据 。 


对 于 很 多 实际 的 项 目 而 言 ， 无 疑 需要 对 数据 和 统计 有 更 深入 的 理解 。 建 议 你 把 本 书 中 出 现 
的 统计 技术 当 作 起 点 ， 而 不 是 说 有 这 些 就 够 了 。 


1.4 性 能 分 类 方法 

本 节 将 介绍 一 些 基本 的 性 能 指标 ， 它 们 为 性 能 分 析 提 供 了 一 个 词汇 表 ， 让 你 可 以 量化 调 优 
项 目的 目标 。 这 些 目标 就 是 定义 性 能 目标 的 非 功能 性 需求 。 一 些 基 本 的 性 能 指标 如 下 : 

。 吞吐 量 (throughput) 

。 延迟 (latency) 

。 容量 (capacity ) 

。 利用 率 (utilization ) 

。 效率 (efficiency) 

。 可 扩展 性 (scalability) 

降级 (degradation) 

下 面 将 依次 简要 地 探讨 这 些 指标 。 注 意 ， 对 大 部 分 性 能 项 目 而 言 ， 并 非 要 同时 优化 每 个 指 
标 。 在 每 次 性 能 迭代 中 只 改进 几 个 指标 的 情况 更 为 常见 ， 而 且 一 次 可 以 调 优 的 指标 可 能 
就 这 么 多 。 在 实际 项 目 中 ， 很 可 能 会 出 现 这 样 的 情况 : 优化 一 个 指标 可 能 会 损害 另外 一 个 
或 几 个 指标 。 


1.4.1 吞吐 量 


吞吐 量 是 一 个 表示 系统 或 子 系统 能 够 执行 的 工作 速率 的 指标 ， 通 常用 某 个 时 间 段 内 的 工作 
单元 数 来 表示 。 比 如 ， 我 们 可 能 会 对 系统 每 秒 能 执行 多 少 个 事务 感 兴趣 。 
要 使 吞吐 量 数字 在 实际 的 性 能 实践 中 具有 意义 ， 那 它 应 该 包括 对 获得 该 数据 的 参考 平台 的 
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描述 。 比 如 ， 硬 件 规 格 、 操 作 系统 和 软件 栈 都 与 吞吐 量 有 关 ， 被 测试 的 系统 是 单 台 服 务 器 
还 是 集群 也 是 如 此 。 此 外 ， 不 同 测试 之 间 的 事务 数 (或 工作 单元 ) 应 该 是 相同 的 。 基 本 
上 ， 我 们 应 该 设法 确保 进行 吞吐 量 测 试 的 工作 负载 在 多 次 运行 之 间 保 持 一 致 。 





1.4.2 ”延迟 

有 了 时 可 以 把 性 能 指标 比喻 为 水 管 ， 以 此 来 解释 它 。 如 果 一 根 水 管 每 秒 能 流出 100 升水 ， 那 
么 1 秒 内 流出 的 水 量 (100 升 ) 就 是 吞吐 量 。 在 这 个 比喻 中 ， 延 迟 实际 上 就 是 水 管 的 长 度 。 
也 就 是 说 ， 它 是 处 理 一 个 事务 并 在 水 管 的 另 一 端 看 到 结果 所 花费 的 时 间 。 

它 通 常 被 称 为 端 到 端的 时 间 。 它 取决 于 工作 负载 ， 所 以 一 个 比较 常见 的 方 炎 是 制作 一 张 
图 ， 将 延迟 显示 为 不 断 增加 的 工作 负载 的 函数 。 我 们 将 在 1.5 市 看 到 这 类 图 。 








.4.3 ”容量 
指 系统 所 拥有 的 工作 并 行 度 ， 即 系统 中 可 以 同时 进行 的 工作 单元 (比如 事务 ) 的 数量 。 


容量 显然 与 否 吐 量 有 关 ， 而 且 我 们 应 该 可 以 预料 到 ， 随 着 系统 上 并 发 负载 的 增加 ， 否 吐 
(和 延迟 ) 会 受到 影响 。 因 此 ， 容 量 通常 被 看 作 在 给 定 的 延迟 或 吞吐 量 值 下 可 用 的 处 
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1.4.4 利用 率 
最 常见 的 性 能 分 析 任 务 之 一 就 是 实现 系统 资源 的 高 效 利 用 。 理 想 情 况 下 ，CPU 应 该 用 于 处 
理 各 个 工作 单元 ， 而 不 是 闲置 (或 者 花 时 间 处 理 操作 系统 或 其 他 管理 任务 ) 。 


根据 工作 负载 的 不 同 ， 不 同 资源 的 利用 水 平 可 能 差异 巨大 。 比 如 ， 在 计算 密集 型 的 工作 负 
载 (如 图 形 处 理 或 加 密 ) 运行 的 时 候 ，CPU 利用 率 可 能 接近 100%， 但 只 使 用 了 一 小 部 分 
可 用 内 存 。 


1.4.5 “效率 
将 系统 的 吞吐 量 除 以 所 使 用 的 资源 可 以 衡量 系统 的 整体 效率 。 直 观 上 看 ， 这 是 有 道理 的 ， 
因为 要 获得 同样 的 吞吐 量 ， 需 要 更 多 资源 的 那个 系统 可 以 被 定义 为 效率 低下 。 


在 处 理 较 大 的 系统 时 ， 也 可 以 使 用 成 本 核算 的 形式 来 衡量 效率 。 如 果 用 美元 计算 ， 解 决 方 
案 A 的 总 体 拥 有 成 本 (TCO) 是 解决 方案 B 的 两 倍 ， 那 么 在 相同 的 吞吐 量 下 ，A 的 效率 显 
然 是 B 的 一 半 。 


1.4.6 ”可 扩展 性 


系统 的 否 吐 量 或 容量 取决 于 可 用 于 处 理 的 资源 。 添 加 资源 时 ， 否 吐 量 的 变化 是 衡量 系统 或 
应 用 程序 可 扩展 性 的 一 个 标准 。 系 统 可 扩展 性 的 最 理想 情况 是 ， 否 吐 量 的 变化 和 资源 的 变 
化 步调 一 致 。 


考虑 一 个 基于 服务 器 集群 的 系统 。 如 果 集 群 被 扩大 ， 比 如 说 规模 扩大 了 一 倍 ， 那 么 可 以 实 
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现 什么 样 的 吞吐 量 呢 ? 如 果 新 的 集群 可 以 处 理 两 倍 的 事务 量 ， 那 么 该 系统 将 呈现 “完美 的 
线性 扩展 ”。 这 在 实践 中 很 难 实现 ， 特 别 是 在 面 对 各 种 可 能 的 负载 时 。 

系统 的 可 扩展 性 取决 于 很 多 因素 ， 而 且 通 常 不 是 一 个 简单 的 恒定 因素 。 常 见 的 情况 是 ， 对 
于 某 个 范围 内 的 资源 ， 系 统 的 可 扩展 性 接近 于 线性 ， 但 在 更 高 的 负载 下 ， 系 统 会 遇 到 一 些 
阻碍 完美 扩展 的 限制 。 


1.4.7 ”降级 

如 果 我 们 通过 增加 请 求 (或 客户 端 ) 的 数量 或 加 快 请 求 到 达 的 速度 来 增加 系统 的 负载 ， 可 
能 会 看 到 观察 到 的 延迟 或 吞吐 量 的 变化 。 

请 注意 ， 这 种 变化 取决 于 系统 的 利用 率 。 如 果 系 统 利用 率 不 足 ， 那 么 在 出 现 可 观测 到 的 变 
化 之 前 ， 系 统 应 该 比较 平缓 ， 但 如 果 资 源 已 经 被 充分 利用 ， 那 么 我 们 会 看 到 吞吐 量 停止 增 
加 或 延迟 增加 。 这 些 变化 通常 被 称 为 系统 在 额外 负载 下 的 降级 。 


1.4.8 各 种 性 能 观测 之 间 的 关联 

各 种 性 能 观测 行为 通常 会 以 某 种 方式 关联 在 一 起 。 这 种 关联 的 细节 取决 于 系统 是 否 在 峰值 
利用 率 下 运行 。 比 如 ， 一 般 情 况 下 ， 利 用 率 会 随 着 系统 负载 的 增加 而 改变 。 然 而 ， 如 果 系 
统 的 利用 率 不 足 ， 那 么 增加 负载 未 必 会 明显 提高 利用 率 。 反 之 ， 如 果 系 统 已 经 处 于 压力 之 
下 ， 那 么 增加 负载 的 效果 可 能 就 会 在 另 一 个 观测 中 感受 到 。 

另 一 个 例子 ， 可 扩展 性 和 降级 都 代表 着 系统 行为 在 负载 增加 时 的 变化 。 对 于 可 扩展 性 来 
说 ， 随 着 负载 的 增加 ， 可 用 资源 也 会 增加 ， 但 核心 问题 是 系统 能 否 利用 这 些 资源 。 然 而 ， 
如 果 负 和 载 增 加 了 ， 却 没有 提供 额外 的 资源 ， 那 么 有 些 可 观测 到 的 性 能 降级 〈 比 如 延迟 ) 就 
是 可 以 预料 到 的 结果 了 。 


在 极 少数 情况 下 ， 额 外 的 负载 会 引发 违反 直觉 的 结果 。 比 如 ， 如 果 负 载 的 变 
化 导致 系统 的 某 些 部 分 切换 到 资源 更 密集 但 性 能 更 高 的 模式 ， 那 么 即使 接收 
到 更 多 的 请 求 ， 总 体 效果 反而 是 延迟 降低 。 
















































































例如 ， 第 9 章 将 详细 讨论 HotSpot 的 JIT 编译 器 。 要 想 进行 IT 编译 ,方法 必须 在 解释 模 
式 下 “足够 频繁 地 ”执行 。 因 此 ， 在 低 负载 时 ， 有 些 关键 方法 可 能 会 卡 在 解释 模式 下 ， 但 
在 较 高 负载 时 ， 由 于 对 方法 的 调用 频率 增加 ， 这 些 方法 就 有 资格 被 编译 。 这 就 导致 以 后 对 
同一 方法 的 调用 比 之 前 执行 的 速度 快 得 多 。 

不 同 的 工作 负载 会 有 截然 不 同 的 特性 。 比 如 金融 市 场 上 的 一 笔 交 易 ， 从 头 到 尾 看 ， 其 执行 
时 间 〈 即 延迟 ) 可 能 是 几 个 小 时 其 至 几 天 。 然 而 ， 在 任何 特定 的 时 间 下 ， 一 家 大 银行 可 能 
有 数 百 万 笔 此 类 交易 正在 进行 。 因 此 ， 系 统 的 容量 很 大 ， 但 延迟 也 很 大 。 

然而 ， 我 们 现在 只 考虑 银行 内 部 的 一 个 子 系统 。 买 方 和 卖方 的 匹配 (本 质 上 是 双方 商定 价 
格 ) 被 称 为 对 盘 (order matching)。 这 个 单独 的 子 系统 在 任何 特定 的 时 间 可 能 只 有 数 百 个 
挂 单 (pending order) ， 但 从 接受 订单 到 完成 匹配 的 延迟 可 能 只 有 1 毫秒 (在 “ 低 延 迟 ” 交 
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易 的 情况 下 甚至 更 短 )。 


本 市 介 绍 了 最 常见 的 性 能 观测 指标 。 尽 管用 到 的 定义 偶尔 可 能 会 稍 有 不 同 ， 黄 至 指标 也 有 
所 差别 ， 但 在 大 部 分 情况 下 ， 它 们 通常 是 指导 我 们 进行 系统 调 优 的 基本 的 系统 数字 ， 也 是 
探讨 我 们 所 感 兴趣 的 系统 性 能 时 的 分 类 依据 。 


1.5 阅读 性 能 图 
最 后 来 看 看 性 能 测试 中 出 现 的 一 些 常 见 行为 模式 。 我 们 将 查看 一 些 来 自 真实 观测 结果 的 
， 在 进行 过 程 中 还 会 遇 到 很 多 其 他 数据 图 表 的 例子 。 


1-1 显示 了 随 着 负载 的 增加 ， 性 能 〈 本 例 中 是 延迟 ) 出 现 了 突然 的 、 预 料 之 外 的 降级 ， 
这 通常 叫 作 性 能 拐点 〈 performance elbow ) 。 
































1-1: 性 能 拐点 





相 比 之 下 ， 图 1-2 显示 的 情况 更 让 人 满意 ， 随 着 集群 中 不 断 添加 机 器 ,吞吐 量 几 乎 呈 线 性 
扩展 。 这 很 接近 于 理想 的 行为 ， 而 且 只 会 在 极 佳 的 情况 下 才 有 可 能 实现 ， 比 如 ， 扩 展 的 是 
与 某 台 单一 服务 器 没有 会 话 亲 和 性 的 无 状态 协议 。 
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图 1-2: 近 线 性 扩展 





第 12 章 将 介绍 Amdahl 定律 ， 该 定律 以 IBM 公司 的 著名 计算 机 科学 家 (也 是 “大 型 机 之 
父 ”) Gene Amdahl 的 名 字 命 名 。 图 1-3 就 是 Amdahl 对 可 扩展 性 的 基本 约束 的 示意 图 ， 它 
显示 了 最 大 可 能 的 速度 提升 是 专用 于 该 任务 的 处 理 器 数量 的 函数 。 
































95% 并 行 度 










90% 并 行 度 





75% 并 行 度 
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1 2 4 8 16 32 64 128 256 512 1024 











1-3， Amdahl 定律 


我 们 展示 了 3 种 情况 : 底层 任务 的 并 行 度 分 别 为 73%、90% 和 95%。 这 清楚 地 表明 ， 只 要 
工作 负载 有 任何 部 分 必须 串 行 执行 ， 线 性 可 扩展 性 就 不 可 能 实现 ， 而 且 对 能 够 实现 多 大 程 
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度 的 可 扩展 性 有 严格 的 限制 。 这 就 证 明了 围绕 图 1-2 的 说 明 是 正确 的 一 一 即使 情况 良好 ， 


线性 可 扩展 性 也 不 可 能 实现 。 
Amdahl 定律 所 施加 的 限制 是 非常 严格 的 。 特 别 要 注意 的 是 ， 图 中 的 横 轴 是 对 数 ， 因 此 即 
使 是 (只 有 ) 5% 串 行 的 算法 ， 也 需要 32 个 处 理 器 来 实现 12 倍 的 加 速 。 更 精 糕 的 是 ， 无 
论 使 用 多 少 个 核心 ， 对 于 该 算法 来 说 ， 最 大 的 提速 也 只 能 达到 20 倍 。 在 实际 应 用 中 ， 很 
多 算法 的 串 行 度 远 远 超过 5%， 所 以 最 大 可 能 的 提速 倍数 就 更 受 约束 了 。 

正如 将 在 第 6 章 中 看 到 的 ， 对 于 没有 承受 压力 的 健康 应 用 程序 ，JVM 垃圾 收集 子 系统 中 的 


底层 技术 会 自然 地 产生 一 种 “锯齿 形 ” 的 内 存 模式 。 示 例如 图 1-4 所 示 。 
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图 1-4: 健康 的 内 存 使 用 情 ) 
图 1-5 显示 了 另 一 个 内 存 图 ， 在 对 应 用 程序 的 内 存 分 配 率 进行 性 能 调 优 时 ， 这 个 图 非常 重 
要 。 这 个 简短 的 例子 显示 的 是 一 个 示例 应 用 程序 (计算 Fibonnaci 数 )， 它 清楚 地 显示 出 分 
配 率 在 900 秒 左 右 有 个 暴跌 。 

8 现 重大 的 垃圾 收 


来 自 同 一 工具 (jClarity Censum) 的 其 他 
集 问 题 ， 进 而 ， 由 于 垃圾 收集 线程 争 用 CPU 资源 ， 应 用 程序 无 法 分 配 足够 的 内 存 。 


我 们 发 现 分 配子 系统 的 运行 也 是 一 个 热点 ， 每 秒 分 配 的 内 存 超过 4 GB， 远 高 于 大 多 数 现代 
系统 (包括 服务 器 级 硬件 ) 所 推荐 的 最 大 容量 。 关 于 内 存 分 配 这 个 主题 ， 在 第 6 章 介绍 垃 























到 表 显 示 ， 应 用 程序 此 时 开始 H 














圾 收集 时 会 进行 更 多 的 讨论 。 
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图 1-5 


: 有 问题 的 内 存 分 配 率 示例 


系统 出 现 资源 泄漏 时 ， 通 常 以 图 1-6 所 示 的 方式 表现 出 来 。 在 这 种 情况 下 ， 观 测量 (在 这 
个 例子 中 是 延迟 ) 会 随 着 负载 的 增加 而 缓慢 下 降 ， 在 达到 一 个 拐点 后 ， 系 统 会 迅速 降级 。 











每 秒 事务 数 








图 1-6: 


高 负载 下 的 延迟 





1.6 ”小 结 


本 章 首先 讨论 了 Java 的 性 能 是 什么 ， 不 是 什么 ， 然 后 介绍 了 经 验 科学 和 测量 的 基本 主题 
以 及 一 个 好 的 性 能 实践 将 用 到 的 基本 词汇 和 观测 量 ， 最 后 介绍 了 性 能 测试 结果 中 一 些 党 
一 些 主要 内 容 ， 并 为 到 





见 的 案例 。 接 下 来 我 们 将 开始 讨论 JVM 的 
JVM 的 性 能 优化 如 此 复杂 做 好 准备 。 








E 解 到 底 是 什么 导致 


是 


于 
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第 2 章 


JVM 概 1 





EF 


Java 无 疑 是 地 球 上 最 大 的 技术 平台 之 一 ， 根 据 Oracle 的 数据 ， 该 平台 拥有 大 约 900 万 到 
1000 万 的 开发 人 员 。 按 照 设 计 ， 很 多 开发 人 员 不 需要 了 解 平台 底层 的 复杂 机 制 。 这 就 导致 
一 种 情况 ， 只 有 当 客户 抱怨 性 能 时 ， 他 们 才 会 遇 到 这 些 细节 问题 。 
不 过 对 于 关心 性 能 的 开发 人 员 而 言 ， 理 解 JVM 技术 栈 的 基础 非常 重要 。 了 解 JVM 技术 可 
使 开发 人 员 编 写 出 更 好 的 软件 ， 并 为 调查 与 性 能 相关 的 问题 提供 必要 的 理论 背景 。 

本 章 将 介绍 JVM 如 何 执 行 Java， 为 后 面 章节 更 深入 地 探索 这 些 主题 打下 基础 。 特 别 是 第 9 
章 会 深入 介绍 字 节 码 。 读 者 可 以 选择 现在 阅读 本 章 ， 也 可 以 在 理解 了 其 他 主题 之 后 结合 第 
9 章 一 起 重读 。 


2.1 解释 和 类 加 载 


根据 Java 虚拟 机 规范 (VM Spec)，JVM 是 基于 栈 的 解释 型 机 器 。 这 意味 着 JVM 和 物理 硬 
件 CPU 不 同 ， 它 没有 寄存 器 ， 而 是 使 用 一 个 包含 部 分 结果 的 执行 栈 ， 并 通过 操作 该 栈 顶 
的 一 个 或 多 个 值 来 执行 计算 。 

可 以 把 JVM 解释 器 的 基本 行为 理解 为 一 个 “包含 在 while 循环 中 的 switch 语句 ” (switch- 
inside-while) ， 按 顺序 单独 处 理 程序 的 每 一 个 操作 码 ， 使 用 求 值 栈 保存 中 间 值 。 


当 深 入 研究 Oracle/OpenJDK YM (HotSpot) 内 部 时 会 看 到 ， 真 正 的 产品 级 
Java 解释 器 情况 可 能 更 加 复杂 ， 不 过 目前 switch-inside-while 这 种 模式 更 容 
易 接 受 。 



























































当 使 用 java HetloWorld 命令 启动 应 用 程序 时 ， 操 作 系统 会 启动 Java 虚拟 机 进程 (java 二 
进 制程 序 )。 它 会 设置 Java 虚拟 环境 ， 并 初始 化 这 一 栈 式 机 器 ， 而 这 一 机 器 将 真正 执行 
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HelloWorld 类 文件 中 的 用 户 代 码 。 


应 用 程序 的 入 口 点 是 HelloWorld.class 的 main() 方法 。 虚 拟 机 执行 之 前 必须 先 加 载 这 个 
类 ， 然 后 才能 将 控制 权 交 给 它 。 

要 实现 这 一 点 ， 需 要 使 用 Java 的 类 加 载 机 制 。 当 启动 一 个 新 的 Java 进程 时 ， 会 用 到 一 个 
加 载 器 链 。 初 始 的 加 载 器 就 是 所 谓 的 启动 类 加 载 器 (bootstrap classloader)， 它 包含 核心 
Java 运行 时 中 的 类 。 在 Java 8 及 之 前 的 版 本 中 ， 它 们 都 是 从 rt.jar 中 加 载 的 。 而 在 Java 9 
及 以 后 的 版 本 中 ， 运 行 时 已 经 被 模块 化 ， 类 加 载 的 概念 有 些 差别 。 


启动 类 加 载 器 的 要 点 是 获得 类 的 一 个 最 小 集合 (包括 诸如 java.lang.0bject、Class 和 
Classloader 等 核心 类 )， 以 允许 其 他 类 加 载 器 启动 系统 的 其 他 部 分 。 

Java 将 类 加 载 器 建 模 为 其 运行 时 和 类 型 系统 内 的 对 象 ， 所 以 需要 以 某 种 方式 

将 一 组 初始 类 加 载 进 来 。 否 则 ， 在 定义 类 加 载 器 时 就 会 出 现 循环 问题 。 























下 一 步 创建 的 是 扩展 类 加 载 器 (extension classloader)。 它 将 启动 类 加 载 器 定义 为 其 父 加 
载 器 ， 并 在 需要 时 将 加 载 工 作 委托 给 局 动 类 加 载 妖 。 扩 展 类 加 载 器 的 应 用 并 不 广泛 ， 但 是 
可 以 为 具体 的 操作 系统 和 平台 提供 重 写 代码 和 原生 代码 。 值 得 注意 的 是 ，Java 8 中 引入 的 
Nashorn JavaScript 运行 时 就 是 由 扩展 类 加 载 器 来 加 载 的 。 


最 后 创建 的 是 应 用 类 加 载 器 (application classloader)。 它 负责 从 指定 的 类 路 径 (classpath) 
中 加 载 用 户 类 。 很 遗憾 ， 有 些 文章 称 其 为 “系统 ”类 加 载 器 (system classloader) ， 我 们 应 
该 避免 这 种 叫 法 ， 原 因 很 简单 ， 它 并 没有 加 载 系 统 类 (这 是 启动 类 加 载 器 的 工作 )。 应 用 
类 加 载 器 最 为 常见 ， 它 的 父 加 载 器 是 扩展 类 加 载 器 。 

当 在 程序 执行 过 程 中 遇 到 对 新 类 的 依赖 时 ，Java 会 加 载 它 们 。 如 果 一 个 类 加 载 器 没有 找 
到 某 个 类 ， 则 加 载 行 为 将 被 委托 给 其 父 加 载 器 。 如 果 链 式 查 找 已 经 到 了 启动 类 加 载 器 这 
里 ， 但 是 还 没 找到 它 ， 则 抛 出 ClassNotFoundException 异常 。 要 缓解 这 一 问题 ， 非 常 重 
要 的 一 点 是 对 于 与 生产 中 使 用 的 完全 相同 的 类 路 径 ， 开 发 人 员 应 该 使 用 一 个 能 高 效 编译 
正常 情况 下 ，Java 只 会 对 一 个 类 加 载 一 次 ， 并 在 运行 时 环境 中 创建 一 个 Class 对 象 来 表示 
它 。 不 过 需要 注意 的 是 ， 同 一 个 类 有 可 能 被 不 同 的 类 加 载 器 加 载 两 次 。 因 此 ， 类 在 系统 中 
是 通过 加 载 它 的 类 加 载 器 以 及 其 全 限定 类 名 (包括 程序 包 名 ) 来 识别 的 。 


2.2 ”执行 字 节 码 


重要 的 是 要 认识 到 ，Java 源 代码 在 执行 之 前 要 经 历 一 系列 变换 。 首 先 就 是 使 用 Java 编译 器 
javac 进行 的 编译 阶段 ，javac 通常 作为 更 上 层 构 建 流程 的 一 部 分 调用 。 

javac 的 工作 是 将 Java 代码 转换 为 包含 字 节 码 的 .class 文件 。 它 对 Java 源 代码 做 了 非常 直 
接 的 变换 ， 如 图 2-1 所 示 。 javac 在 编译 期 间 很 少 进行 优化 ， 而 且 以 反 汇编 工 具 (比如 标 
准 的 javap) 查看 其 生成 的 字 节 码 时 ， 可 读 性 仍然 非常 好 ， 可 以 像 Java 代码 那样 识别 。 
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创建 类 文件 








2-1: Java 类 文件 编译 


字 市 码 是 一 种 中 间 表 示 ， 设 有 与 特定 的 机 器 架构 绑 定 。 与 机 器 架构 解 看 有 两 大 好 处 : 一 是 
提供 了 可 移植 性 ， 这 意味 着 已 经 开发 好 或 编译 完 的 软件 可 以 在 JVM 支持 的 任何 平台 上 运 
行 ， 二 是 提供 了 对 Java 语言 的 抽象 。 这 为 我 们 了 解 JVM 执行 代码 的 方式 提供 了 第 一 个 重 
要 视角 。 








现在 ，Java 语言 和 Java 虚拟 机 在 一 定 程度 上 是 独立 的 ， 所 以 JVM 这 个 叫 法 
可 能 有 点 误导 ， 因 为 JVM 可 以 执行 任何 能 生成 合法 类 文件 的 JVM 语言 。 事 
实 上 ， 图 2-1 也 很 容易 演示 Scala 编译 器 scalac 生成 字 节 码 并 在 JVM 上 执行 
的 逻辑 。 









































不 管 使 用 的 是 何 种 源 代码 编译 器 ， 生 成 的 类 文件 都 具备 虚拟 机 规范 所 指定 的 明确 结构 (参见 
表 2-1)。JVM 对 于 任何 要 加 载 的 类 ， 都 要 先 验 证 它们 符合 指定 格式 ， 然 后 才 允 许 其 执行 。 


表 2-1: 类 文件 剖析 























组 ” 件 描 述 

魔 数 0xCAFEBABE 

类 文件 格式 版 本 该 类 文件 的 主 版 本 号 和 次 版 本 号 
常量 池 该 类 的 常量 池 

访问 标志 该 类 是 否 为 抽象 类 、 静 态 类 等 
当前 类 该 类 的 名 字 

超 类 超 类 的 名 字 

接口 该 类 实现 的 接口 

字段 该 类 的 所 有 字段 

方法 该 类 的 所 有 方法 

属性 该 类 的 所 有 属性 (比如 ， 源 文件 的 名 字 ， 等 等 ) 











每 个 类 文件 都 以 魔 数 (magic number) 9xCAFEBABE 开始 ， 前 面 的 4 个 以 十 六 进 制 表示 的 
字 节 表示 当前 文件 符合 类 文件 格式 。 随 后 的 4 个 字 节 表示 用 于 编译 该 类 文件 的 主 版 本 号 
和 次 版 本 号 ， 检 查 这 些 字 节 可 以 确保 目标 JVM 的 版 本 不 低 于 编译 该 类 文件 的 版 本 。 类 
加 载 器 会 检查 主 版 本 号 和 次 版 本 号 ， 以 确保 兼容 性 ， 如 果 不 兼 容 ， 则 在 运行 时 抛 出 
UnsupportedClassVersionError， 说 明 运 行 时 的 版 本 低 于 所 编译 类 文件 的 版 本 。 


魔 数 为 Unix 环境 提供 了 一 种 识别 文件 类 型 的 方式 (而 Windows 通常 使 用 文 
件 扩展 名 )。 为 此 ， 这 个 值 一 旦 决定 就 很 难 修改 了 。 遗 憾 的 是 ， 尽 管 Java 9 
为 模块 文件 引入 了 魔 数 gxCAFEDADA ， 但 在 可 预见 的 未 来 ，Java 仍然 不 得 不 继 
续 使 用 令 人 相当 尴 熔 和 存在 性 别 旷 视 的 0xCAFEBABE。 





常量 池 (constant pool) 保存 代码 中 的 常量 ， 比 如 类 、 接 口 和 字段 的 名 字 。 当 JVM 执行 代 
码 时 ， 会 使 用 常量 池 表 来 查找 值 ， 而 不 用 依赖 运行 时 的 内 存 布局 。 


访问 标志 (access flag) 用 于 确定 应 用 于 该 类 的 修饰 符 。 标 志 的 第 一 部 分 识别 一 般 属性 ， 比 
如 一 个 类 是 否 为 public， 随 后 的 部 分 判断 该 类 是 否 为 final (如 果 是 ， 则 不 能 子 类 化 )。 这 
个 标志 还 可 以 确定 该 类 文件 表示 的 是 接口 还 是 抽象 类 。 标 志 的 最 后 一 部 分 指示 这 个 类 文件 
是 表示 源 代码 中 没有 出 现 的 合成 类 、 注 解 (annotation) 类 型 或 枚 举 (enum)。 

当前 类 (this class)、 超 类 (superclass) 和 接口 (interface) 这 几 项 都 是 指向 常量 池 的 索引 ， 
用 于 识别 该 类 相关 的 类 型 层次 。 字 段 (field) 和 方法 (method) 定义 了 一 个 类 似 签名 的 结构 ， 
包括 应 用 于 字段 或 方法 的 修饰 符 。 然 后 使 用 一 组 属性 ， 用 于 表示 更 复杂 、 大 小 不 固定 的 结 
构 中 的 结构 化 条 目 。 比 如 ， 方 法 使 用 Code 属性 来 表示 与 该 特定 方法 关联 的 字 节 码 。 


图 2-2 提供 了 一 个 辅助 方法 ， 帮 你 记 住 类 文件 的 结构 。 

















2-2: 类 文件 结构 助 记 法 


注 1: 0xCAFEDADA 是 JIMAGE 文件 的 魔 数 。 一 一 译 者 注 
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在 这 个 非常 简单 的 代码 示例 中 ， 可 以 观察 到 运行 javac 的 作用 : 


public class HeLLoWortLd { 
public static void main(String[] args) { 
for (int i = 0; i < 10; i++) { 
System.out.println("Hello World"); 
} 


} 


Java 提供 了 一 个 名 叫 javap 的 类 文件 反 汇编 器 ， 可 用 于 检视 类 文件 。 以 HelloWorld 类 文件 
为 例 ， 运 行 javap -c HelloWorld， 得 到 如 下 输出 : 


public class HeLLoWortLd { 
public HelloWorld(); 
Code: 
0: aload_0 
1: invokespecial #1 // Method java/lang/Object."<init>":()V 
4: return 





public static void main(java.Lang.String[]); 


Code: 
0: iconst 0 
1: istore 1 
2: iload_1 
3: bipush 10 
5: if_icmpge 22 
8: getstatic #2 // Field java/lang/System.out ... 
11: Lde #3 // String Hello World 
13: invokevirtual #4 // Method java/io/PrintStream.println ... 
16: iinc lH 
19: goto 之 
22: return 


} 


上 面 的 输出 描述 了 HelloWorld.class 文件 的 字 节 码 。 要 了 解 更 多 细节 ，javap 还 有 一 个 -v 
选项 ， 可 以 提供 完整 的 类 文件 头 信 息 和 常量 池 详 情 。 尽 管 源 代码 中 只 有 一 个 main() 方 法， 
但 是 这 个 类 文件 包含 两 个 方法 ， 这 是 因为 javac 自动 为 该 类 添加 了 一 个 默认 构造 器 。 

构造 器 中 执行 的 第 一 个 指令 是 aload_9， 它 将 this 引用 放 到 栈 中 的 第 一 个 位 置 。 然 后 调用 
invokespecial 命令 ， 该 命令 调用 一 个 实例 方法 ， 该 方法 有 特殊 处 理 ， 会 调用 超 类 的 构造 器 
并 创建 对 象 。 在 默认 构造 器 中 ， 因 为 没有 和 窗 写 ， 所 以 调用 匹配 的 是 0bject 的 默认 构造 器 。 


JVM 中 的 操作 码 非常 简洁 ， 可 以 表示 类 型 、 操 作 ， 以 及 局 部 变量 、 常 量 池 和 
栈 之 间 的 交互 。 









































再 来 看 main() 方法 ，iconst_0 将 整 型 常量 9 压 到 求 值 乒 上 。istore_1 将 该 常量 值 保存 在 
局 部 变量 表 中 偏 移 为 1 的 位 置 (代表 循环 中 的 1) 。 局 部 变量 偏 移 从 0 开始 ， 但 是 对 于 实例 
方法 ， 第 0 项 总 是 this。 之 后 将 偏 移 1 的 变量 加 载 回 栈 上 ， 并 使 用 if_icmpge (if integer 
compare greater or equal) 将 常量 19 推送 到 栈 中 进行 比较 。 只 有 在 当前 的 整 型 值 不 小 于 10 
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时 ， 测 试 才 会 成 功 。 

对 于 前 儿 次 迭代 ， 比 较 测 试 失 败 ， 所 以 我 们 继续 走 到 指令 8。 这 里 会 解析 出 System.out 的 
静态 方法 ， 然 后 从 常量 池 加 载 “Hello World” 字 符 串 。 下 一 个 调用 ， 即 invokevirtual, 会 
调用 该 类 的 一 个 实例 方法 。 该 整 型 数 增加 ， 之 后 goto 被 调用 ， 跳 回 到 指令 2。 

这 个 过 程 一 直 持 续 到 if_icmpge 比较 最 终 成 功 ( 当 循环 变量 不 小 于 10 时 ) ;在 这 次 迭代 
时 ， 控 制 传 递 到 指令 22， 方 法 返回 。 


2.3 ” HotSpot 简介 


1999 年 4 月 ，Sun 公司 向 Java 引入 了 性 能 方面 最 大 的 一 个 变化 。HotSpot 虚拟 机 是 Java 的 
一 个 关键 特性 ， 使 得 Java 的 性 能 可 以 与 C 和 C++ 比肩 (其 至 超过 )， 如 图 2-3 所 示 。 要 解 
释 其 原因 ， 我 们 先 来 深入 了 解 一 下 Java 为 支持 应 用 程序 开发 所 做 的 语言 设计 。 























Java 
碑 代 码 


创建 类 文件 ;持续 进行 JIT 编 译 














2-3: HotSpot JVM 


语言 和 平台 设计 经 常 涉及 在 所 需 功 能 之 间 进 行 决策 和 权衡 。 在 设计 Java 时 ， 面 对 的 选择 是 
让 它 “ 更 接近 机 器 "、 依 赖 诸如 “ 零 成 本 抽象 ”等 原则 ， 还 是 提高 开发 人 员 的 效率 ， 首 选 
“把 事情 做 完 ” 而 不 是 严格 的 底层 控制 。 


C++ 实现 遵循 零 成 本 原则 : 不 需要 为 用 不 到 的 功能 付出 代价 。 更 进一步 ， 你 要 使 
用 的 东西 ， 性 能 已 经 非常 好 ， 手 动 优 化 也 不 会 做 得 更 好 了 。 








Bjarne Stroustrup 

零 成 本 原则 理论 上 听 起 来 很 好 ， 但 它 要 求 所 有 使 用 这 门 语言 的 人 都 要 面 对 操作 系统 和 计算 
机 如 何 工 作 这 些 底层 机 制 。 对 于 并 不 将 原始 性 能 作为 主要 目标 的 开发 人 员 而 言 ， 这 是 一 个 
很 大 的 额外 认 知 负担 。 
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不 仅 如 此 ， 它 还 要 求 在 构建 时 将 源 代码 编译 为 平台 特定 的 机 器 代码 一 一 通常 叫 作 预先 
(ahead-of-time，AOT) 编译 ， 因 为 诸如 解释 器 、 虚 拟 机 和 可 移植 层 之 类 的 执行 模式 都 不 是 
零 成 本 的 。 
这 个 原则 也 隐藏 了 很 多 问题 ， 比 如 “你 要 使 用 的 东西 性 能 已 经 非常 好 ， 手 动 优化 也 不 会 做 
得 更 好 了 ”。 这 就 预 设 了 很 多 东西 ， 尤 其 是 开发 人 员 能 够 编写 出 比 自 动 化 的 系统 更 好 的 代 
码 。 这 个 假设 根本 不 合理 。 现 在 几乎 没有 人 再 想 用 汇编 语言 写 代 码 了 ， 所 以 使 用 自动 化 系 
统 (如 编译 器 ) 来 生成 代码 显然 对 大 部 分 程序 员 有 一 些 好 处 。 

Java 从 来 就 没有 认可 过 零 成 本 抽象 哲学 。 相 反 ，HotSpot 虚拟 机 所 采取 的 方法 是 分 析 应 用 
程序 的 运行 时 行为 ， 并 智能 地 在 最 有 可 能 获得 性 能 提升 的 地 方 应 用 优化 。HotSpot 虚拟 机 的 
目标 是 支持 你 编写 符合 Java 的 代码 ， 并 遵循 良好 的 设计 原则 ， 而 不 是 让 程序 来 适合 虚拟 机 。 


即时 编译 简介 

Java 程序 在 字 广 码 解释 器 中 开始 执行 ， 而 在 解释 器 中 ， 指 令 是 在 虚拟 化 的 栈 式 机 器 上 执行 
的 。 这 种 从 真正 的 CPU 抽象 出 来 的 机 制 使 类 文件 具有 了 可 移植 性 ， 但 是 为 了 获得 最 好 的 
性 能 ， 程 序 还 是 必须 利用 CPU 的 原生 特性 ， 直 接 在 CPU 上 执行 。 


HotSpot 通过 将 程序 单元 从 解释 的 字 市 码 编译 成 原生 代码 来 实现 这 个 目标 。HotSpot 虚拟 机 
中 的 编译 单元 是 方法 和 循环 。 这 就 是 所 谓 的 即时 编译 。 

JIT 编译 的 工作 原理 是 ， 当 应 用 程序 在 解释 模式 下 运行 时 ， 监 控 该 应 用 程序 ， 并 观察 代码 
中 执行 最 频繁 的 部 分 。 在 这 个 分 析 过 程 中 ， 系 统 会 捕获 程序 化 的 轨迹 信息 ， 从 而 实现 更 复 
杂 的 优化 。 一 旦 特定 方法 的 执行 超过 了 一 个 国 值 ， 剖 析 器 就 会 对 这 段 特定 代码 进行 编译 和 
优化 。 
JIT 编译 方法 有 很 多 优点 ， 一 个 最 主要 的 优点 是 它 将 编译 器 的 优化 决策 建立 在 解释 阶段 收 
集 到 的 轨迹 信息 的 基础 上 ， 从 而 使 HotSpot 能 够 做 出 更 明智 的 优化 。 

不 仅 如 此 ，HotSpot 经 过 了 多 年 的 开发 ， 几 乎 每 个 版 本 都 增加 了 新 的 优化 和 优势 。 这 意 
着 在 新 版 本 HotSpot 上 运行 的 任何 Java 应 用 程序 都 能 够 利用 虚拟 机 中 提供 的 新 的 性 能 优 
化 ， 其 至 不 需要 重新 编译 。 


在 从 Java 源 代码 转换 成 字 节 码 并 进行 另 一 个 (JIT) 编译 步骤 之 后 ， 实 际 执 
行 的 代码 与 所 编写 的 源 代码 相 比 发 生 了 非常 大 的 变化 。 这 是 一 个 很 关键 的 洞 
察 ， 它 将 决定 我 们 在 处 理性 能 相关 研究 时 采用 何 种 方法 。 在 JVM 上 执行 的 
JIT 编译 代码 可 能 与 原始 的 Java 源 代码 看 上 去 完全 不 一 样 。 


















































大 致 的 情况 就 是 ， 像 C++ 这 样 的 语言 (以 及 很 有 前 途 的 Rust) 性 能 往往 更 可 预期 ， 但 代价 
是 给 用 户 带 来 了 大 量 底层 复杂 性 。 

请 注意 ,，“ 更 可 预期 ”不 一 定 意味 着 “更 好 ”。AOT 编译 器 生成 的 代码 可 能 需要 在 很 多 不 同 
的 处 理 器 上 运行 ， 并 且 可 能 无 法 假定 某 些 特定 的 处 理 器 特性 是 可 用 的 。 

使 用 剖析 制导 优化 (profile-guided optimization，PGO) 的 环境 ， 比 如 Java， 有 可 能 以 大 部 
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分 AOT 平台 根本 无 法 使 用 的 方式 使 用 运行 时 信息 。 这 可 以 改善 性 能 ， 例 如 动态 内 联 和 优 
化 虚拟 调用 。HotSpot 其 至 可 以 在 虚拟 机 启动 时 检测 到 它 所 运行 的 CPU 的 精确 类 型 ， 而 且 
可 以 使 用 这 些 信息 来 开启 针对 特定 处 理 器 特性 设计 的 优化 (如 果 有 的 话 )。 


检测 精确 处 理 器 能 力 的 技术 被 称 为 JVM 内 部 函数 (intrinsic)， 不 要 与 
synchronized 关键 字 引 入 的 内 置 锁 (intrinsic lock) 混淆 。 





关于 PGO 和 JIT 编译 的 完整 讨论 参见 第 9 章 和 第 10 章 。 

对 大 多 数 普通 开发 人 员 来 说 ，HotSpot 所 采取 的 复杂 方法 大 有 神 益 ， 但 是 这 种 权衡 (放弃 
零 成 本 抽象 ) 意味 着 在 高 性 能 Java 应 用 程序 的 具体 案例 中 ， 开 发 人 员 必 须 非 常 小 心 ， 以 避 
免 实际 执 行 Java 应 用 程序 时 陷入 “常识 性 ”推理 和 产生 过 于 简化 的 思维 模式 。 

一 般 来 说 ， 分 析 一 小 段 Java 代码 的 性 能 〈 微 基准 测试 ) 实际 上 比分 析 整 个 应 
用 程序 的 性 能 要 难 ， 而 且 这 是 大 部 分 开发 人 员 不 应 该 承担 的 一 项 非常 专业 的 
工作 。 第 5 章 会 探讨 这 个 主题 。 
































HotSpot 的 编译 子 系统 是 虚拟 机 提供 的 两 个 最 重要 的 子 系统 之 一 。 另 一 个 是 自动 内 存 管理 ， 
这 是 早期 Java 的 主要 卖点 之 一 。 


2.4 JVM 内 存 管 理 


在 诸如 C、C++ 和 Objective-C 这 样 的 语言 中 ， 程 序 员 负责 管理 内 存 的 分 配 和 释放 。 自 己 管 
理 对 象 的 内 存 和 生命 周期 的 好 处 是 性 能 更 具 确 定性 ， 而 且 我 们 还 能 将 资源 的 生命 周期 与 对 
象 的 创建 和 删除 绑 定 在 一 起 。 但 是 这 些 好 处 是 以 巨大 的 成 本 为 代价 的 : 为 保证 正确 性 ， 开 
发 人 员 必 须 能 够 精确 掌控 内 存 。 


遗憾 的 是 ， 几 十 年 的 实践 经 验 表 明 ， 很 多 开发 人 员 对 内 存 管理 的 习惯 用 法 和 模式 了 解 其 
少 。C++ 和 Objective-C 的 后 续 版 本 使 用 标准 库 中 的 智能 指针 习惯 用 法 改进 了 这 一 点 。 然 
而 ， 在 创建 Java 时 ， 差 劲 的 内 存 管 理 是 应 用 程序 错误 的 一 个 主要 原因 。 这 导致 开发 人 员 和 
管理 者 更 关注 花 在 处 理 语言 特性 上 的 时 间 ， 而 不 是 用 来 交付 业务 价值 的 时 间 。 


Java 通过 引入 一 个 叫 作 垃圾 收集 (garbage collection，GC) 的 进程 自动 管理 堆 内 存 来 帮助 
解决 这 个 问题 。 简 而 言 之 ， 垃 圾 收集 是 一 个 非 确 定性 的 过 程 ， 当 JVM 需要 分 配 更 多 内 存 
时 ， 它 会 触发 以 恢复 和 复 用 不 再 需要 的 内 存 。 


然而 ， 垃 圾 收集 背后 的 故事 并 不 简单 。 在 Java 的 历史 过 程 中 ， 已 经 开发 并 应 用 了 各 种 垃圾 
收集 算法 。 垃 圾 收集 付出 的 代价 是 : 当 它 运行 时 ， 往 往 会 造成 全 部 停顿 ， 这 意味 着 当 垃 圾 
收集 进程 运行 时 应 用 程序 会 暂停 。 通 常 ， 这 些 和 暂停 时 间 设 计 得 非常 短 ， 但 是 当 应 用 程序 承 
受 压 力 时 ， 和 暂停 时 间 可 能 会 增加 。 

垃圾 收集 是 Java 性 能 优化 的 一 个 主要 话题 ， 所 以 我 们 会 用 第 6 章 、 第 7 章 和 第 8 章 专门 讨 
论 Java 垃圾 收集 的 细节 。 
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2.5 ”线程 和 Java 内 存 模型 


Java 最 大 的 优势 之 一 就 是 从 第 一 个 版 本 开始 就 内 置 了 对 多 线程 的 支持 。Java 平台 允许 开发 
人 员 创 建新 的 执行 线程 。 比 如 ，Java 8 的 语法 如 下 : 


Thread t = new Thread(() -> {System.out.println("Hello World!");}); 
t.start(); 


不 仅 如 此 ，Java 环境 和 JVM 一 样 ， 本 身 就 是 多 线程 的 。 这 给 Java 程序 带 来 了 额外 的 、 无 
法 简化 的 复杂 性 ， 使 得 性 能 分 析 工 作 变 得 更 加 困难 。 

在 大 部 分 主流 JVM 实现 中 ， 每 个 Java 应 用 程序 线程 都 精确 地 对 应 一 个 专用 的 操作 系统 
线程 。 另 一 种 方式 是 使 用 一 个 共享 的 线程 池 来 执行 所 有 Java 应 用 程序 线程 ， 这 种 方式 叫 
作 绿 色 线程 。 事 实证 明 后 面 这 种 方式 并 没有 提供 可 接受 的 性 能 状况 ， 还 增加 了 不 必要 的 
复杂 性 。 














可 以 大 胆 地 假设 ， 每 个 JVM 应 用 程序 线程 背后 都 有 唯一 的 操作 系统 线程 支 
寺 ， 它 会 在 我 们 调用 Thread 对 象 的 start() 方法 时 被 创建 出 来 。 











Java 的 多 线程 实现 方式 可 以 追溯 到 20 世纪 90 年 代 末 期 ， 它 有 以 下 3 个 基本 的 设计 原则 。 


。 Java 进程 中 的 所 有 线程 共享 一 个 单一 、 公 共 的 垃圾 回收 堆 。 

。 某 个 线程 创建 的 任何 对 象 都 可 以 被 任何 其 他 具有 该 对 象 引 用 的 线程 访问 。 

。 对 象 在 默认 情况 下 是 可 变 的 ， 也 就 是 说 ， 除 非 程序 员 明 确 使 用 final 关键 字 将 其 标记 为 
不 可 变 的 ， 否 则 对 象 字段 中 保存 的 值 可 以 被 修改 。 

Java 内 存 模型 (Java memory model，JMM) 是 内 存 的 一 个 形式 化 模型 ， 它 解释 了 不 同 执行 

线程 如 何 看 到 对 象 中 保存 的 正在 修改 的 值 。 也 就 是 说 ， 如 果 线 程 A 和 线程 B 都 有 对 对 象 

obj 的 引用 ， 而 线程 A 对 其 进行 了 修改 ， 那 么 在 线程 B 中 观察 到 的 值 会 发 生 什么 变化 ? 

这 个 问题 看 似 简单 ， 但 因为 操作 系统 的 调度 器 (将 在 第 3 章 中 介绍 ) 可 以 强行 将 线程 从 

CPU 核心 中 剥离 出 去 ， 所 以 事实 上 要 更 加 复杂 。 这 可 能 会 导致 另 一 个 线程 开始 执行 ， 并 在 

原来 的 线程 处 理 完 对 象 之 前 访问 该 对 象 ， 也 就 有 可 能 会 看 到 该 对 象 处 于 损坏 或 无 效 状态 。 

在 并 发 代码 执行 过 程 中 ，Java 的 核心 为 防止 潜在 的 对 象 破坏 所 提供 的 唯一 保护 就 是 互 不 

锁 ， 它 在 实际 的 应 用 程序 中 用 起 来 可 能 非常 复杂 。 第 12 章 会 详细 介绍 JMM 是 如 何 工 作 

的 ， 还 会 给 出 使 用 线程 和 锁 的 一 些 实践 。 


2.6 ”认识 不 同 的 JVM 
很 多 开发 人 员 可 能 只 熟悉 Oracle 的 Java 实现 。 我 们 已 经 认识 了 来 自 Oracle 实现 中 的 虚拟 
机 一 一 HotSpot。 不 过 还 有 其 他 一 些 实现 ， 本 书 也 会 进行 不 同 程度 的 探讨 。 
OpenJDK 
OpenJDK 是 一 个 有 趣 的 特例 。 它 是 一 个 开源 (GPL) 项 目 ， 提 供 了 Java 的 参考 实现 。 
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该 项 目 由 Oracle 领导 和 支持 ， 并 为 其 Java 版 本 的 发 布 提供 了 基础 。 


Oracle 
Oracle 的 Java 是 最 广为人知 的 实现 。 它 基于 OpenJDK， 但 在 Oracle 的 专 有 许可 证 下 重 
新 授权 。 几 乎 所 有 对 Oracle Java 的 改动 都 是 以 向 OpenJDK 公共 仓库 提交 的 方式 开始 的 
(除了 尚未 公开 披露 的 安全 修复 之 外 )。 

Zulu 
Zulu 是 一 个 免费 的 OpenJDK 实现 (基于 GPL 许可 证 ) ， 完 全 通过 Java 认证 ， 并 由 Azul 
Systems 公司 提供 。 它 不 受 专 有 许可 证 的 约束 ， 可 以 自由 地 重新 分 发 。Azul 是 为 数 不 多 
的 为 OpenJDK 提供 付费 支持 的 供应 商 之 一 。 

IcedTea 
Red Hat 是 Oracle 之 外 第 一 家 能 够 生产 完全 通过 认证 的 Java 实现 (基于 OpenJDK) 的 
厂商 。IcedTea 已 通过 全 面 认证 并 可 以 重新 分 发 。 

Zing 
Zing 是 一 款 高 性 能 的 专 有 JVM。 它 完全 通过 了 Java 认证 ， 由 Azul Systems 公司 开发 。 它 
仅 支持 64 位 Linux， 是 为 配置 了 超大 堆 (TB 级 ) 和 大 量 CPU 的 服务 器 级 系统 设计 的 。 



































J9 
IBM 的 Jo 最 初 是 一 款 专 有 的 JVM， 后 来 开源 了 (就 像 HotSpot 一 样 ) 。 它 现在 建立 在 
Eclipse 开放 运行 时 项 目 (OMR) 之 上 ， 并 构成 IBM 专 有 产品 的 基础 。 它 完全 兼容 Java 
认证 。 

Avian 
就 认证 而 言 ，Avian 实现 并 不 是 完全 兼容 Java。 之 所 以 把 它 放 入 这 个 列表 中 ， 是 因为 它 
是 一 个 有 趣 的 开源 项 目 ， 对 于 有 兴趣 了 解 JVM 工作 细节 的 开发 人 员 来 说 是 一 个 很 好 的 
学 习 工 具 ， 而 不 是 一 个 完全 可 用 于 生产 的 解决 方案 。 

Android 
Google 的 Android 项 目 有 时 被 认为 “基于 Java”。 不 过 情况 其 实 有 点 复杂 。Android 最 
初 使 用 的 是 Java 类 库 的 不 同 实 现 (来 自净 室 设 计 的 Harmony 项 目 )， 还 使 用 了 一 个 交 又 
编译 器 来 生成 支持 非 JVM 的 虚拟 机 的 不 同文 件 格式 (.dex)。 

在 这 些 实现 中 ， 本 书 的 绝 大 部 分 内 容 集中 在 HotSpot 上 。 书 中 的 材料 同样 适用 于 Oracle 

Java、Azul Zulu、Red Hat IcedTea 和 所 有 其 他 基于 OpenJDK 的 JVM。 


























在 做 版 本 对 比 时 ， 各 种 基于 HotSpot 的 实现 之 间 基 本 上 没有 性 能 方面 的 差异 。 








书 中 还 有 一 些 与 IJBM J9 和 Azul Zing 相关 的 材料 。 这 里 只 是 希望 读者 了 解 这 些 替 代 方 案 ， 
而 不 是 提供 一 个 明确 的 指南 。 有 些 读者 可 能 希望 更 深入 地 探索 这 些 技 术 ， 我 们 鼓励 他 们 通 
过 设 定性 能 目标 ， 然 后 以 进行 测量 和 比较 的 方式 来 入 手 。 
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Android 正 朝 着 使 用 OpenJDK 8 类 库 ， 并 在 Android 中 直接 提供 支持 的 方向 发 展 。 由 于 这 
个 技术 栈 与 其 他 的 例子 相去 甚 远 ， 因 此 本 书 就 不 再 进一步 讨论 Android 了 。 


关于 许可 证 的 说 明 


几乎 所 有 我 们 要 讨论 的 JVM 都 是 开源 的 ， 事 实 上， 它们 中 的 大 多 数 是 从 基于 GPL 协议 授 
权 的 HotSpot 衍生 出 来 的 。 基 于 Eclipse 协议 授权 的 IBM 的 Open J9 和 商业 化 的 Azul Zing 
(虽然 Azul 的 Zulu 产品 是 基于 GPL 的 ) 是 例外 。 


Oracle Java (从 Java 9 开始 ) 的 情况 要 稍微 复杂 一 些 。 尽 管 它 来 自 OpenJDK 代码 库 ， 但 它 
是 专 有 的 ， 不 是 开源 软件 。Oracle 通过 让 OpenJDK 的 所 有 贡献 者 都 签署 许可 协议 来 实现 
这 一 点 ， 该 协议 允许 对 他 们 对 OpenJDK 的 GPL 和 Oracle 的 专 有 许可 证 的 贡献 进行 双重 许 
可 。 


Oracle Java 的 每 个 更 新 版 本 都 是 OpenJDK 主线 之 外 的 一 个 分 支 ， 以 后 的 版 本 都 不 会 在 分 
支 上 进行 修补 。 这 就 避免 了 Oracle 和 OpenJDK 产生 分 歧 ， 并 解释 了 Oracle JDK 和 基于 相 
同 源 代码 的 OpenJDK 的 二 进 制 文件 并 没有 实质 差别 。 


这 意味 着 Oracle JDK 和 OpenJDK 之 间 唯 一 的 真正 区 别 是 许可 证 。 这 似乎 无 关 紧 要 ， 但 

Oracle 的 许可 证 中 包含 了 一 些 开 发 人 员 应 该 注意 的 条 款 。 

。 Oracle 并 不 授予 你 在 自己 的 组 织 之 外 重新 分 发 其 二 进 制 文件 的 权利 〈 比 如， 以 Docker 
映像 形式 发 布 )。 

在 得 到 许可 (通常 为 支持 合同 ) 之 前 ， 不 得 对 Oracle 的 二 进 制 文件 应 用 二 进 制 补丁 。 

Oracle 还 提供 了 其 他 一 些 商 用 功能 和 工具 ， 只 能 配合 Oracle JDK 在 其 许可 条 款 内 使 用 。 不 

过 这 种 情况 将 随 着 Oracle 未 来 发 布 的 Java 版 本 的 变化 而 改变 ， 我 们 将 在 第 15 章 中 讨论 。 


在 规划 新 的 绿 场 部 署 (greenfield deployment) 时 ， 开 发 人 员 和 架构 师 应 该 仔细 考虑 如 何 选 
择 JVM 厂商 。 一 些 大 型 组 织 ， 尤 其 是 Twitter 和 阿里 巴巴 ， 甚 至 维护 自己 的 OpenJDK 私有 
构建 版 本 ， 不 过 这 里 需要 的 技术 投入 也 是 许多 公司 无 法 企及 的 。 


2.7 JVM 的 监控 和 工具 


JVM 是 一 个 成 熟 的 执行 平台 ， 它 为 运行 中 的 应 用 程序 的 注入 、 监 控 和 可 观测 性 提供 了 很 多 
技术 选择 。 用 于 JVM 应 用 程序 的 这 些 工具 的 主要 技术 有 : 


。 Java 管理 扩展 (Java management extension, JMX) 
。 Java 代理 
。 JVM 工具 接口 (JVM tool interface, JVMTI) 
。 The serviceability agent (SA) 


JMX 是 一 种 功能 强大 的 通用 技术 ， 用 于 控制 和 监控 JVM 以 及 在 其 上 运行 的 应 用 程序 。 
它 支 持 从 客户 端 应 用 程序 中 以 常规 方式 修改 参数 和 调用 方法 。 本 书 不 会 讨论 JMX 的 方 方 
面 面 。 然 而 ，JMX (以 及 与 它 相关 的 网 络 传 输 机 制 RMI) 是 JVM 管理 功能 的 一 个 基本 
方面 。 

















































































































Java 代理 是 一 个 用 Java 编写 的 工具 组 件 (也 是 因此 而 得 名 )， 它 利用 java.lang.instrument 
中 的 接口 来 修改 方法 的 字 节 码 。 要 安装 某 个 代理 ， 需 要 癌 JVM 提供 一 个 启动 标志 : 


-javaagent:<path-to-agent-jar>=<options> 


代理 的 JAR 包 中 必须 包含 一 个 清单 文件 (manifest) ， 并 包含 Premain-Class 属性 。 此 属性 
包含 代理 类 的 名 称 ， 该 类 必须 实现 一 个 公开 的 、 静 态 的 premain() 方法 ， 充 当 Java 代理 的 
注册 钩子 。 

如 果 Java Instrumentation API 还 不 够 ， 那 么 可 以 使 用 JVMTI。 这 是 JVM 的 一 个 原生 接口 ， 
所 以 使 用 该 接口 的 代理 必须 用 原生 编译 型 语言 编写 一 一 主要 是 C 或 C++。 我们 可 以 将 其 看 
作 一 个 通信 接口 ， 支 持原 生 代 理 监控 JVM 事件 并 接收 事件 通知 。 要 安装 本 地 代理 ， 需 要 
的 标志 有 点 差别 : 


-agentLib:<agent-Lib-name>=<options> 









































或 

-agentpath:<path-to-agent>=<options> 
JVMTI 代理 必须 用 原生 代码 编写 ， 这 意味 着 更 有 可 能 写 出 损害 正在 运行 的 应 用 程序 甚至 导 
致 JVM 崩 神 的 代码 。 
在 可 能 的 情况 下 ， 通 常 应 该 选择 编写 Java 代理 ， 而 不 是 编写 JVMTI 代码 。 虽 然 Java 代理 
写 起 来 也 更 容易 ， 但 有 些 信息 是 无 法 通过 Java API 获取 的 ， 要 访问 这 些 数据 ，JVMTI 可 能 
是 唯一 的 选择 。 
最 后 一 种 方法 是 SA。 这 是 一 组 API 和 工具 ， 可 以 对 外 公开 Java 对 象 和 HotSpot 数据 结构 
的 信息 。 
SA 不 需要 在 目标 虚拟 机 中 运行 任何 代码 。 相 反 ，HotSpot SA 使 用 符号 查找 和 进程 内 存 读 
取 等 基本 原 语 来 实现 调试 功能 。SA 可 以 调试 活跃 Java 进程 以 及 核心 转 储 文件 (也 称 为 崩 
溃 转 储 文件 ) 。 

















VisualVM 


除了 众所周知 的 javac 和 java 等 二 进 制 文件 外 ，JDK 还 提供 许多 其 他 有 用 的 工具 ， 其 中 一 
个 经 常 被 忽略 的 工具 就 是 VisualVM， 它 是 一 个 基于 NetBeans 平台 的 图 形 化 工具 。 


























jvisualvm 是 早期 Java 版 本 中 现 已 过 时 的 jconsole 工具 的 替代 品 。 如 果 还 
在 使 用 jconsote， 则 应 该 转移 到 VisualVM (有 一 个 兼容 的 插件 ， 可 以 让 
jconsole 以 插件 形式 在 VisualVM 中 运行 )。 




















最 近 的 Java 版 本 已 经 提供 了 VisualVM 的 稳定 版 本 ， 而 且 JDK 中 的 这 个 版 本 通常 是 够 用 
的 。 但 是 ， 如 果 需 要 使 用 更 近 的 版 本 ， 可 以 到 Java.net 网 站 下 载 最 新 版 。 下 载 后 ， 必 须 确 
保 将 visualvn 二 进 制 文件 添加 到 你 的 路 径 中 ， 否 则 将 得 到 JRE 默认 的 版 本 。 
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从 Java 9 开始 ，VisualVM 将 从 主 发 行 版 中 删除 ， 因 此 开发 人 员 必 须 单独 下 
载 二 进 制 文件 。 

















第 一 次 启动 VisualVM 时 ， 它 会 对 所 运行 的 机 器 进行 校准 ， 所 以 此 时 不 应 该 运行 其 他 应 
用 程序 ， 以 免 影响 性 能 校准 。 校 准 完成 后 ，VisualVM 将 完成 启动 并 显示 一 个 闪 屏 。 在 
VisualVM 中 ， 人 们 最 熟悉 的 视图 是 Monitor 界面 ， 如 图 2-4 所 示 。 
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2-4: VisualVM 的 Monitor 界面 

VisualVM 用 于 实时 监控 正在 运行 的 进程 ， 它 使 用 的 是 JVM 的 附加 (attach) 机 制 。 根 据 进 
程 是 本 地 进程 还 是 远程 进程 ， 工 作 原 理 略 有 不 同 。 

本 地 进程 相当 直接 。VisualVM 会 在 屏幕 左边 列 出 这 些 进程 。 双 击 其 中 一 个 进程 ， 右 侧面 
板 中 会 出 现 一 个 新 的 选项 卡 对 应 该 进程 。 

要 连接 到 远程 进程 ， 远 程 端 必须 接受 入 站 连接 (通过 JMX)。 对 于 标准 的 Java 进程 ， 这 意 
味 着 jstatd 必须 在 远程 主机 上 运行 (详情 请 参阅 jstatd 的 手册 页 面 )。 















































很 多 应 用 程序 服务 器 和 执行 容器 直接 在 服务 器 上 提供 了 与 jstatd 等 效 的 功 
能 。 这 样 的 进程 不 需要 单独 的 jstatd 进程 。 
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要 连接 到 一 个 远程 进程 ， 请 输入 将 在 选项 卡 上 使 用 的 主机 名 和 显示 名 。 默 认 的 连接 端口 是 
1099， 但 是 这 个 可 以 轻松 更 改 。 
VisualVM 为 用 户 提供 了 5 个 开 箱 即 用 的 选项 卡 。 
概述 (Overview ) 
提供 有 关 Java 进程 的 信息 摘要 ， 其 中 包括 传 入 的 完整 标志 和 所 有 系统 属 ' 
示 正 在 执行 的 、 确 切 的 Java 版 本 。 
监控 (Monitor ) 
这 个 选项 卡 与 传统 的 JConsole 视图 最 为 相似 。 它 显示 的 是 JVM 的 高 层 观测 信息 ， 包 括 
CPU 和 堆 的 使 用 情况 。 它 还 显示 加 载 和 务 载 的 类 的 数量 ， 以 及 运行 的 线程 数量 。 
线程 ( Threads ) 
正在 运行 的 应 用 程序 中 的 每 个 线程 都 会 显示 在 一 个 时 间 轴 上 ， 包 括 应 用 程序 线程 和 虚 
拟 机 线程 。 从 中 我 们 可 以 看 到 每 个 线程 的 状态 以 及 少量 的 历史 记录 。 如 果 需 要 ， 还 可 
以 生成 线程 转 储 。 
抽样 器 (Sampler ) 和 剖析 器 ( Profiler ) 
在 这 些 视图 中 ， 可 以 访问 简化 的 CPU 和 内 存 利 用 率 抽样 。 第 13 章 会 进行 更 全 面 的 
讨论 。 
VisualVM 采用 了 插件 架构 ， 所 以 很 容易 问 核 心平 台 添 加 额外 的 工具 以 扩展 核心 功能 ， 其 
中 包括 允许 与 JMX 控制 台 交 互 并 桥接 到 遗留 的 JConsole 的 插件 ， 以 及 非常 有 用 的 垃圾 收 
集 插件 VisualGC。 


2.8 小 车 

本 章 简 要 介绍 了 JVM 的 整体 结构 。 虽 然 我 们 只 能 触及 一 些 最 重要 的 主题 ， 但 事实 上， 这 
里 提 到 的 几乎 每 个 主题 背后 都 有 丰富 完整 的 内 容 ， 值 得 进一步 研究 。 

第 3 章 将 讨论 操作 系统 和 硬件 工作 原理 的 一 些 细节 。 这 为 Java 性 能 分 析 人 员 了 解 观测 结果 
提供 了 必要 的 背景 。 我 们 还 将 更 详细 地 研究 计时 子 系统 ， 它 将 作为 一 个 完整 的 例子 来 说 明 
虚拟 机 和 原生 子 系统 是 如 何 交 互 的 。 


麻 
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第 3 章 


硬件 与 操作 系统 





为 什么 Java 开发 人 员 应 该 关心 硬件 呢 ? 
多 年 来 ， 计 算 机 产业 一 直 在 摩尔 定律 的 推动 下 发 展 。 该 定律 是 英特尔 创始 人 Gordon Moore 
就 处 理 器 性 能 的 长 期 趋势 提出 来 的 一 个 假设 。 摩 尔 定律 (其实 是 一 个 观察 或 推断 ) 有 多 种 
表达 方式 ， 不 过 最 常见 的 一 种 是 : 

批量 生产 的 车 片 上 的 覃 体 管 数 量 大 概 每 隔 18 个 月 翻 一 倍 。 
这 个 现象 说 明 计算 能 力 随时 间 周 期 呈 指 数 级 增长 。 摩 尔 定律 诞生 于 1965 年 ， 它 代表 的 是 
一 个 不 可 思议 的 长 期 趋势 ， 这 在 人 类 发 展 史 上 几乎 是 无 与 伦比 的 。 摩 尔 定律 的 影响 在 现代 
世界 的 许多 (即便 不 是 大 多 数 ) 领域 具有 变革 性 。 


数 十 年 来 ， 不 断 有 人 宣告 摩尔 定律 已 死 。 现 在 已 经 有 非常 充分 的 理由 支持 
这 一 点 ， 即 芯片 技术 的 这 种 不 可 思议 的 演进 过 程 实际 上 已 经 (最 终 ) 走 到 了 


















































按照 摩尔 定律 ， 现 代 计算 机 上 的 “晶体 管 预 算 ” 不 断 增加 ， 为 了 充分 利用 它们 ， 硬 件 变 得 越 
来 越 复杂 。 而 要 充分 挖掘 新 的 能 力 ， 运 行 在 硬件 上 的 软件 平台 ， 其 复杂 性 也 要 增加 。 因 此 ， 
尽管 软件 可 以 利用 的 计算 能 力 更 强大 了 ， 但 是 要 获得 性 能 提升 ， 还 必须 依赖 硬件 的 复杂 基础 。 


对 于 普通 的 应 用 程序 开发 人 员 来 说 ， 这 种 性 能 的 巨大 提升 成 了 复杂 软件 的 希望 之 花 。 软 件 
应 用 程序 现在 已 经 遍及 整个 社会 的 各 个 方面 。 


换 名 话说: 
软件 正在 吞噬 整个 世界 。 
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正如 我 们 将 看 到 的 ，Java 已 经 成 为 不 断 增长 的 计算 能 力 的 受益 者 。 这 门 语言 及 运行 时 的 设 
计 正 好 适应 并 利用 了 处 理 器 能 力 提 升 的 趋势 。 不 过 ， 要 充分 挖 抉 可 用 资源 ， 真 正 追求 性 能 
的 Java 程序 员 仍然 需要 了 解 平台 底层 的 原理 和 技术 。 


后 续 章 节 将 探索 现代 JVM 的 软件 架构 ， 以 及 在 平台 和 代码 级 别 上 优化 Java 应 用 程序 的 技 
术 。 在 进入 那些 主题 之 前 ， 先 快速 了 解 一 下 现代 硬件 和 操作 系统 会 有 助 于 后 续 的 学 习 。 


3.1 现代 硬件 简介 


很 多 关于 硬件 系统 结构 的 大 学 课程 ， 仍 然 在 以 一 种 简单 且 容 易 理 解 的 经 典 方式 教授 硬件 。 
这 种 毫 无 新 意 的 讲解 方式 ， 关 注 的 就 是 一 个 简单 的 基于 寄存 器 的 机 器 ， 支 持 算术 、 逻 辑 、 
加 载 和 存储 操作 。 因 此 ， 与 CPU 实际 做 什么 相 比 ， 它 过 分 强调 了 C 语言 编程 ， 让 人 将 其 
当 作 真理 之 源 。 简 单 来 说 ， 这 是 现代 一 种 与 事实 不 符 的 世界 观 。 

自 20 世纪 90 年 代 以 来 ， 应 用 程序 开发 人 员 的 世界 在 很 大 程度 上 是 以 Intel x86/x64 架构 为 
中 心 的 。 在 这 个 领域 中 ， 技 术 已 经 发 生 了 翻天 覆 地 的 变化 ， 许 多 先进 的 特性 也 已 成 为 舞台 
上 的 重要 部 分 。 关 于 处 理 器 操作 的 那 种 简单 的 心智 模型 现在 完全 错误 ， 而 基于 那 种 模型 的 
简单 推理 ， 也 很 容易 得 出 完全 错误 的 结论 。 

为 了 帮助 解决 这 个 问题 ， 本 章 将 讨论 CPU 技术 中 的 一 些 先 进 技 术 。 我 们 将 从 内 存 的 行为 
开始 讨论 ， 因 为 到 目前 为 止 ， 这 对 于 一 个 现代 Java 开发 人 员 而 言 是 最 重要 的 。 


3.2 内 存 


随 着 摩尔 定律 的 发 展 ， 唱 体 管 数 量 的 指数 级 增长 最 初 带 来 的 是 越 来 越 快 的 时 钟 速度 。 原 因 
很 明显 : 更 快 的 时 钟 速度 意味 着 每 秒 能 完成 更 多 指令 。 同 时 ， 处 理 器 的 速度 也 相应 大 大 提 
升 ， 我 们 如 今 所 使 用 的 频率 在 2 GHz 以 上 的 处 理 器 ， 比 第 一 代 IBM PC 最 初 的 4.77 MHz 
芯片 要 快 数 百倍 。 

然而 ， 不 断 提 高 的 时 钟 速 度 揭示 了 另 一 个 问题 : 更 快 的 芯片 需要 更 快 的 数据 流 来 执行 。 如 
图 3-1 所 示 ,，: 随 着 时 间 的 推移 ， 主 存储 器 已 经 无 法 满足 处 理 器 核心 对 新 数据 的 需求 。 



































注 1: 此 示例 取 自 由 John L. Hennessy 和 David A. Patterson 所 车 的 《计算 机 体系 结构 :量化 研究 方法 (第 5 版 )》 
一 书 ， 此 书 已 由 人 民 邮 电 出 版 社 出 版 ， 详 情 请 见 ituring.cn/book/888。 编者 注 
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图 3-1， 内 存 的 速度 和 晶体管 数量 (Hennessy 和 Patterson，2011 年 ) 


这 就 导致 了 一 个 问题 : 如 果 CPU 在 等 待 数 据 ， 那 么 再 快 的 周期 也 无 意义 ， 因 为 CPU 只 能 
闲置 ， 直 到 所 需 的 数据 到 来 。 


内 存 高 速 缓存 

为 了 解决 这 个 问题 ， 我 们 引入 了 CPU 高 速 缓 在 。 这 些 是 CPU 上 的 内 存 区 域 ， 速 度 比 CPU 
的 寄存 器 慢 ， 但 比 主 存 快 。 其 思路 是 ， 对 于 频繁 访问 的 内 存 位 置 ， 让 CPU 将 对 应 的 内 在 
数据 的 副本 装填 到 高 速 缓存 中 ， 而 不 是 每 次 都 到 内 存 中 读 取 。 


现代 的 CPU 有 几 层 高 速 缓存 ， 其 中 最 常 访 问 的 高 速 缓存 位 于 处 理 核心 附近 。 离 CPU 最 近 
的 高 速 缓存 通常 称 为 L1 (表示 “第 1 级 高 速 缓存 ")， 下 一 层 称 为 L2， 以 此 类 推 。 不 同 的 
处 理 器 架构 ， 高 速 缓存 的 数量 和 配置 也 会 有 所 不 同 ， 但 通常 的 选择 是 每 个 执行 核心 都 有 一 
个 专用 的 、 私 有 的 Ll 和 L2 高 速 缓存 ， 而 L3 高 速 缓存 是 部 分 核心 或 所 有 核心 共享 的 。 这 
些 高 速 缓存 在 加 快 访问 时 间 方面 的 效果 如 图 3-2 所 示 。” 

































































注 2: 这 里 显示 的 访问 时 间 以 每 个 操作 所 需 的 时 钟 周期 数 计算 ， 数 据 由 Google 提供 。 



































士 丰 伟 只 167 

L3 高 速 缓存 完全 随机 访问 了 38: 

13 缓 存 页 内 随机 访问 有 13 

13 高 速 缓存 顺序 访问 加 14 
2 高速 缓存 完全 随机 访问 11 

12 缓 存 页 内 随机 访问 11 

12 高 速 缓存 顺序 访问 11 
LI 高 速 缓存 完全 随机 访问 蛋 4 

L1 缓 存 页 内 随机 访问 有 4 

LI 高 速 缓存 顺序 访问 上 4 

0 50 100 150 200 











3-2: 不 同类 型 内 存 的 访问 时 间 


高 速 缓存 架构 的 这 种 实现 方法 可 以 缩短 访问 时 间 ， 并 有 助 于 核心 储备 足够 的 数据 用 于 操 
作 。 由 于 时 钟 速度 与 访问 时 间 的 差距 ， 现 代 CPU 上 往往 会 有 更 多 的 晶体 管 预 算 被 投入 到 
高 速 缓存 上 。 

由 此 产生 的 设计 如 图 3-3 所 示 。 图 中 显示 了 Ll 和 1L2 高 速 缓 存 (每 个 CPU 核心 私有 的 ) 
和 一 个 共享 的 13 高 速 缓存 ，L3 是 这 个 CPU 上 的 所 有 核心 共用 的 。 主 存储 器 通过 北桥 组 
件 进 行 访问 ， 因 为 要 穿越 这 个 总 线 ， 所 以 到 主 存储 器 的 访问 时 间 大 幅 下 降 。 
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3-3: CPU 和 内 存 的 总 体 架构 


虽然 高 速 缓存 架构 的 加 入 极 大 地 改善 了 处 理 器 的 吞吐 量 ， 但 也 带 来 了 一 系列 新 间 题 。 这 些 
问题 包括 确定 如 何 将 数据 从 内 存 提取 到 高 速 缓存 ， 以 及 如 何 将 数据 从 高 速 缓存 写 回 内 存 。 
这 个 问题 的 解决 方案 通常 被 称 为 高 速 缓存 一 致 性 协议 (cache consistency protocol) 。 
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当 在 并 行 处 理 环境 中 应 用 这 种 类 型 的 高 速 缓存 时 ， 还 会 出 现 其 他 问题 ， 本 了 
后 面 会 介绍 。 











oy 





Nu 





在 最 底层 ， 很 多 不 同 的 处 理 器 上 有 一 种 叫 作 MESI (及 其 变种 ) 的 协议 。 它 为 高 速 缓 存 中 
的 任何 一 行 定 义 了 4 种 状态 ， 每 一 行 (通常 为 64 字 节 ) 只 能 处 于 以 下 状态 中 的 一 种 : 

。 已 修改 (modified) ， 但 尚未 刷新 到 主 存 ; 

。 独占 (exclusive) ， 只 出 现在 当前 的 高 速 缓存 中 ， 但 是 数据 和 主 存 一 致 ， 

。 共享 (shared) ， 可 能 也 出 现在 其 他 高 速 缓存 中 ， 但 是 数据 和 主 存 一 致 ; 

。 无 效 (invalid) ， 可 能 未 被 使 用 ， 会 尽快 丢弃 。 


该 协议 的 理念 是 多 个 处 理 器 可 以 同时 处 于 共享 状态 。 但 是 ， 如 果 一 个 处 理 器 转换 到 其 他 任 
何 一 个 有 效 状 态 (独占 或 已 修改 )， 那 么 这 将 强制 所 有 其 他 处 理 器 进入 无 效 状 态 ， 如 表 3-1 
所 示 。 


表 3-1: 不 同 处 理 器 之 间 允 许 的 MESI 状 态 
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该 协议 是 通过 将 某 个 处 理 器 想 要 改变 状态 的 意图 广播 出 去 来 工作 的 。 通 过 共享 的 内 存 总 线 
发 送 一 个 电信 号 ， 其 他 处 理 器 就 能 够 意识 到 ， 状 态 转 换 的 完整 逻辑 如 图 3-4 所 示 。 
































3-4: MESI 状态 转换 图 
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最 初 ， 处 理 器 会 直接 将 每 个 高 速 缓存 操作 写 和 人 主 内 存 。 这 叫 作 直 写 (write-through) 行为 ， 
这 种 方式 在 过 去 和 现在 都 非常 低 效 ， 而 且 需 要 大 量 的 内 存 带宽 。 但 更 新 的 处 理 器 实现 了 写 
回 (write-back) 行为 ， 只 有 当 已 修改 的 〈 脏 的 ) 高 速 缓存 块 要 被 替换 时 ， 才 将 其 写 入 内 
存 ， 这 种 方式 可 以 极 大 降低 回 到 主 存 的 流量 。 

高 速 缓 存 技术 的 总 体 效果 是 大 大 提高 了 从 内 存 读 写 数据 的 速度 ， 速 度 用 内 存 带 宽 表示 。 突 
发 速率 (burst rate)， 或 者 说 理论 上 的 最 大 内 存 带宽 ， 基 于 如 下 几 个 因素 : 

。 内 存 时 钟 频 率 ，; 

。 内 存 总 线 带 宽 (通常 为 64 位 ) ; 

。 接口 数量 (现代 机 器 通常 使 用 两 个 内 存 接口 )。 

如 果 是 DDR RAM， 还 要 乘 以 2 (DDR 代表 “ 双 倍 数据 速率 ”， 因 为 它 在 时 钟 信号 的 上 升 
沿 和 下 降 沿 都 会 进行 通信 )。 将 这 个 公式 应 用 到 2015 年 的 商用 硬件 上 ， 可 以 得 到 理论 上 的 
最 大 写 入 速度 为 8~12 GB/s。 当 然 ， 在 实际 应 用 中 ， 速 度 可 能 会 受到 系统 中 许多 其 他 因素 
的 限制 。 按 照 实际 情况 ， 它 给 出 了 一 个 适度 的 参考 值 ， 让 我 们 可 以 看 看 硬件 和 软件 能 够 接 
近 到 什么 程度 。 


下 面 写 一 些 简 单 的 代码 来 实际 体验 一 下 高 速 缓 存 硬 件 ， 如 示例 3-1 所 示 。 


示例 3-1 高 速 缓存 示例 
public class Caching { 
























































private final int ARR_SIZE = 2 * 1024 * 1024; 
private final int[] testData = new int[ARR_SIZE]; 


private void run() { 
System.err.println("Start: "+ System.currentTimeMillis()); 
for (int i = 0; i < 15 000; i++) { 
touchEveryLine(); 


touchEveryItem(); 
} 
System.err.println("Warmup finished: "+ System.currentTimeMillis()); 
System.err.println("Item Line"); 


for (int i = 0; i < 100; i+t+) { 
Long t0 = System.nanoTime(); 
touchEveryLine(); 
Long t1 = System.nanoTime(); 
touchEveryItem( ) ; 
Long t2 = System.nanoTime(); 
Long elLItem = t2 - t1; 
Long elLLine = t1 - tO0; 
double diff = eLItem - elLine; 
System.err.printLn(eLItem + " " + elLine +" "+ (100 * diff / elLine)); 


} 


private void touchEveryItem() { 
for (int i = 0; i < testData.Length; i++) 
testData[i]++; 
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private void touchEveryLine() { 
for (int i = 0; i < testData.length; i += 16) 
testData[il]++; 
} 


public static void main(String[] args) { 
Caching c = new Caching(); 
c.run(); 
} 
} 


直观 地 说 ，touchEveryItem() 所 做 的 工作 是 touchEveryLine() 的 16 倍 ， 因 为 它 必须 更 新 
16 倍 的 数据 条 目 。 然 而 ， 这 个 简单 的 例子 说 明了 在 处 理 JVM 性 能 问题 时 ， 直 觉 会 严重 地 
把 我 们 引入 歧途 。 接 下 来 看 看 Caching 类 的 一 些 示例 输出 ， 如 图 3-5 所 示 。 
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图 3-5; 高 速 缓存 示例 的 时 间 消 耗 情况 


这 张 图 显示 了 每 个 函数 运行 100 次 的 情况 ， 旨 在 演示 几 种 不 同 的 效果 。 首 先 可 以 注意 到 两 
个 函数 所 花 的 时 间 非 常 相近 ， 所 以 “16 倍 的 工作 量 ” 这 一 直观 预期 显然 是 错误 的 。 

相反 ， 这 段 代 码 考验 的 主要 是 内 存 总 线 ， 将 数组 的 内 容 从 主 存 中 转移 到 高 速 缓 存 中 ， 供 
touchEveryItem() 和 touchEveryLine() 来 处 理 。 

从 数字 的 统计 结果 来 看 ， 虽 然 结 果 还 算 比 较 一 致 ， 但 存在 个 别 异 常 值 与 中 位 数 相差 
30%~35%。 

总 的 来 说 ， 可 以 看 到 简单 内 存 函 数 的 每 一 次 迭代 大 约 需 要 3 毫秒 (平均 2.86 毫秒 ) 来 遍历 

100 MB 的 内 存 块 ， 这 样 计 算出 的 有 效 内 存 带 宽 略 低 于 3.5 GB/s。 这 比 理论 上 的 最 大 值 要 
小 ， 但 仍然 是 一 个 合理 的 数字 。 


现代 CPU 有 一 个 硬件 预 取 器 (prefetcher)， 它 可 以 发 现 数据 访问 中 的 可 预测 
模式 (通常 就 是 通过 一 个 常规 的 “ 步 幅 ” 来 访问 数据 )。 本 例 利 用 这 一 事实 ， 
来 使 内 存 访问 带宽 接近 实际 的 最 大 值 。 

















Java 性 能 的 关键 主题 之 一 是 应 用 程序 对 对 象 分 配 率 的 敏感 性 。 后 面 我 们 还 会 多 次 讨论 这 个 
问题 ， 这 个 简单 的 示例 提供 了 一 个 基本 的 标准 ， 让 我 们 了 解 分 配 率 可 能 会 上 升 到 多 高 。 


3.3 现代 处 理 器 特性 


硬件 工程 师 有 时 会 把 摩尔 定律 所 带 来 的 新 特性 称 为 “ 花 掉 晶体 管 预算 。 内 存 高 速 缓存 最 
明显 的 地 方 就 是 使 用 的 晶体 管 越 来 越 多 了 ， 但 这 些 年 也 出 现 了 其 他 技术 。 


3.3.1 翻译 后 备 缓冲 器 

还 有 一 个 非常 重要 的 用 途 是 用 于 另 一 种 高 速 缓存 中 ， 即 翻译 后 备 缓冲 器 (translation 
lookaside buffer，TLB)。 它 充当 的 是 页 表 的 高 速 缓存 ， 而 页 表 的 作用 是 将 虚拟 内 存 地 址 上 映 
射 到 物理 地 址 。 TLB 可 以 大 大 提升 访问 虚拟 地 址 下 的 物理 地 址 这 一 非常 频繁 的 操作 速度 。 


如 果 没 有 TLB， 即 使 页 表 被 保存 在 L1 高速 缓存 中 ， 所 有 的 虚拟 地 址 查找 也 要 花费 16 个 时 
钟 周期 。 这 样 的 性 能 是 无 法 接受 的 ， 所 以 TLB 基本 上 对 所 有 现代 心 片 都 是 必 备 的 。 


3.3.2 ”分支 预测 和 推测 执行 


现代 处 理 器 上 出 现 的 高 级 处 理 器 技巧 之 一 是 分 支 预测 (branch prediction) ， 用 于 防止 出 现 
处 理 器 必须 等 待 计算 条 件 分 支 所 需要 的 值 的 情况 。 现 代 处 理 器 有 多 阶段 的 指令 流水 线 ， 这 
意味 着 一 个 CPU 周期 的 执行 会 被 分 解 成 堵 干 个 独立 的 阶段 。 处 理 器 可 以 同时 执行 多 条 指 
令 (它们 处 于 不 同 的 执行 阶段 )。 

在 这 个 模型 中 ， 条 件 分 支 是 不 确定 的 ， 因 为 在 条 件 被 计算 完成 之 前 ， 并 不 知道 分 支 之 后 
的 下 一 条 指令 是 什么 。 这 可 能 会 导致 处 理 器 停滞 (stall) 若干 个 时 钟 周期 (实际 最 多 达 20 
个 )， 因 为 它 实 际 上 要 清空 分 支 后 面 的 多 阶段 流水 线 。 


众所周知 ， 推 测 性 执行 是 导致 2018 年 年 初 发 生 的 影响 大 量 CPU 重大 安全 问 
题 的 原因 。 





































































































为 了 避免 这 种 情况 ， 处 理 器 用 晶体 管 构建 了 一 个 启发 式 策略 ， 以 判断 更 有 可 能 采用 哪个 分 
支 。 基 于 这 种 猜测 ，CPU 用 赌博 的 方式 填充 流水 线 。 如 果 判 断 成 功 ， 那 么 CPU 就 会 像 往 
常 一 样 继 续 执行 。 如 果 判 断 错误 ， 那 么 部 分 被 执行 的 指令 就 要 被 丢弃 ，CPU 还 必须 接受 清 


空 流 水 线 的 惩罚 。 


3.3.3 ”硬件 存储 器 模型 

在 多 核 系 统 中 ， 有 一 个 关于 内 存 的 必须 回答 的 核心 问题 是 ， 多 个 不 同 的 CPU 如 何 能 够 一 
致 地 访问 同一 个 内 存 位 置 。 

这 个 问题 的 答案 高 度 依赖 于 硬件 ， 一 般 来 说 ，javac、JIT 编译 器 和 CPU 都 允许 改变 代码 的 
执行 顺序 ， 但 前 提 是 任何 改变 都 不 能 影响 当前 线程 所 观察 到 的 结果 。 
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比如 ， 假 设 有 这 样 一 段 代码 : 


myInt = otherInt; 
intChanged = true; 


这 两 条 赋值 语句 之 间 没 有 其 他 代码 ， 所 以 执行 线程 不 需要 关心 它们 以 什么 顺序 发 生 ， 因 而 
Java 执行 环境 可 以 随意 改变 这 两 条 指令 的 顺序 。 


然而 ， 这 可 能 意味 着 在 另 一 个 能 看 到 这 些 数 据 项 的 线程 中 ， 顺 序 可 能 会 发 生变 化 ， 而 另 一 
个 线程 读 取 到 的 myInt 的 值 也 可 能 是 旧 值 ， 尽 管 intChanged 看 上 去 是 true。 


这 种 类 型 的 重 排序 (store 被 重 排序 到 store 之 后 ) 在 x86 蕊 片上 是 不 可 能 发 生 的 ， 但 正如 
表 3-2 所 示 ， 在 其 他 架构 中 ， 这 种 情况 是 有 可 能 发 生 的 ， 而 且 确 实 发 生 了 。 


表 3-2: 硬件 存储 器 的 支持 





























ARMv7 POWER SPARC x86 AMD64 zSeries 





load 被 重 排序 到 load 之 后 
load 被 重 排序 到 store 之 
store 被 重 排 序 到 store 之 
store 被 重 排 序 到 load 之 
原子 操作 和 load 重 排 序 

原子 操作 和 store 重 排序 
是 否 存在 不 一 致 的 指令 高 速 缓存 


在 Java 环境 中 ，Java 内 存 模 型 (JMM) 被 明确 地 设计 为 一 种 弱 模 型 ， 以 考虑 到 不 同 处理 
器 类 型 之 间 内 存 访问 的 一 致 性 的 差异 。 要 确保 多 线程 代码 正常 工作 ， 主 要 是 靠 正确 使 用 锁 
和 易 失 性 (volatile) 访问 。 第 12 章 中 还 会 再 次 讨论 这 个 重要 的 主题 。 
近年 来 出 现 了 一 种 趋势 ， 即 要 获得 更 好 的 性 能 ， 软 件 开发 人 员 就 要 更 好 地 了 解 硬 件 的 工作 
原理 。Martin Thompson 等 人 引入 了 一 个 术语 “机 械 共鸣 ”(mechanical sympathy) 来 描述 
这 各 方法， 特别 是 当 应 用 于 低 延 迟 和 高 性 能 领域 的 问题 时 。 在 最 近 关 于 无 锁 的 算法 和 数据 
结构 的 研究 中 可 以 看 到 它 的 身影 ， 本 书 最 后 将 对 此 进行 讨论 。 


3.4 ”操作 系统 


操作 系统 的 意义 在 于 控制 对 资源 的 访问 ， 这 些 资 源 必 须 在 多 个 执行 进程 之 间 共 享 。 因 为 所 
有 的 资源 都 是 有 限 的 ， 而 所 有 的 进程 都 很 贪 材 ， 所 以 必须 有 一 个 中 心 系统 来 对 访问 做 仲裁 
和 计量 。 在 这 些 稀缺 资源 中 ， 最 重要 的 两 个 通常 为 内 存 和 CPU 时 间 。 


通过 内 存 管理 单元 (MMU) 及 其 页 表 的 虚拟 寻 址 是 实现 内 存 访问 控制 的 关键 特性 ， 它 可 
以 防止 一 个 进程 破坏 另 一 个 进程 所 拥有 的 内 存 区 域 。 


本 章 前 面 提 到 过 TLB 的 一 种 硬件 特性 ， 即 它 可 以 改善 物理 内 存 的 查找 时 间 。 这 种 缓冲 区 的 
使 用 改善 了 软件 对 内 存 的 访问 时 间 ， 提 高 了 性 能 。 但 是 ，MMU 的 级 别 通 常 很 低 ， 以 致 开 
发 人 员 无 法 直接 影响 或 意识 到 。 相 反 ， 让 我 们 仔细 看 看 操作 系统 进程 调度 器 ， 因 为 它 控 制 
着 对 CPU 的 访问 ， 并 且 是 操作 系统 内 核 中 用 户 更 能 看 到 的 部 分 。 
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3.4.1 调度 器 


对 CPU 的 访问 是 由 进程 调度 器 控制 的 。 它 使 用 了 一 个 所 谓 的 运行 队列 ， 作 为 有 资格 运行 
但 必须 等 待 CPU 的 线程 或 进程 的 等 竺 区。 在 现代 系统 上 ， 因 为 想 要 运行 的 线程 /进程 实际 
上 总 是 比 能 够 运行 的 多 ， 所 以 需要 一 种 机 制 来 解决 CPU 和 争 用 问题 。 


调度 器 的 工作 是 响应 中 断 ， 并 管理 对 CPU 核心 的 访问 。 一 个 Java 线程 的 生命 周期 如 图 3-6 
所 示 。 理 论 上 ，Java 规范 允许 使 用 这 样 的 线程 模型 ， 而 Java 线程 也 未 必 对 应 于 操作 系统 线 
程 。 然 而 ， 在 实践 中 ， 这 种 “绿色 线程 ”方法 并 没有 被 证 明确 实 有 用 ， 所 以 在 主流 的 操作 
环境 中 已 经 被 放弃 了 。 








Object.notify():; 
Object .notify .All(); 
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3-6: 线程 生命 周期 


在 这 个 相对 简单 的 视图 中 ， 系 统 配 置 的 是 单 核 处 理 器 ， 操 作 系统 的 调度 器 会 将 线程 移动 到 
单 核 上 和 将 线程 从 单 核 上 移 走 。 在 时 间 片 结束 时 (在 比较 老 的 操作 系统 中 通常 是 10 毫秒 
或 100 毫秒 ) ， 调 度 器 会 将 线程 移动 到 运行 队列 的 后 面 ， 以 等 待 线程 到 达 队 列 的 前 面 并 有 
资格 再 次 运行 。 

如 果 一 个 线程 想 主 动 放弃 其 时 间 片 ， 有 两 种 方式 ,一 种 是 指定 固定 的 时 间 (通过 
sleep()), 一 种 是 等 待 某 个 条 件 被 满足 (使 用 wait())。 最 后 线程 也 可 能 阻塞 在 VO 或 软件 
锁 上 。 

初次 使 用 此 模型 时 ， 考 虑 仅 具 有 一 个 执行 核心 的 机 器 可 能 会 有 帮助 。 当 然 ， 真正 的 硬件 会 
更 复杂 ， 几 乎 任何 现代 机 器 都 有 多 个 处 理 器 核心 ， 从 而 可 以 真正 同时 执行 多 个 执行 路 径 。 
这 意味 着 推测 真正 的 多 处 理 环境 下 的 执行 情况 是 非常 复杂 且 违 反 直 觉 的 。 
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操作 系统 的 一 个 经 常 被 忽视 的 特点 是 ， 由 于 其 本 身 的 性 质 ， 它 们 会 引入 一 段 时 间 ， 应 用 程 
序 的 代码 在 这 段 时 间 内 是 没有 在 CPU 上 运行 的 。 一 个 已 经 完成 了 其 时 间 片 的 进程 ， 直 到 
它 再 次 到 达 运 行 队列 的 前 端 时 ， 才 会 回 到 CPU 上 。 又 因为 CPU 是 一 种 稀缺 资源 ， 所 以 代 
码 等 待 的 时 间 往 往 要 比 运行 的 时 间 长 。 


这 也 意味 着 对 于 实际 想 要 观测 的 进程 ， 所 要 生成 的 统计 数据 会 受到 系统 中 其 他 进程 行为 的 
影响 。 这 种 “抖动 ”和 调度 开销 是 导致 观测 结果 出 现 噪声 的 主要 原因 。 第 5 章 中 将 讨论 实 
际 结果 的 统计 特性 和 处 理 方法 。 


查看 调度 器 的 动作 和 行为 的 一 个 最 简单 方法 就 是 尝试 观察 操作 系统 为 实现 调度 而 带 来 的 开 
销 。 下 面 的 代码 执行 了 2000 个 单独 的 2 毫秒 休眠 。 每 一 个 休眠 都 会 涉及 线程 被 送 到 运行 
队列 的 尾部 ， 然 后 必须 等 待 一 个 新 的 时 间 片 。 所 以 ， 这 段 代码 的 总 耗费 时 间 可 以 让 我 们 对 
典型 进程 的 调度 开销 有 一 定 的 了 解 : 

Long start = System.currentTimeMillis(); 

for (int i = 0; i < 2 000; i++) { 

Thread. sleep(2); 
} 


Long end = System.currentTimeMillis(); 
System.out.println("Millis elapsed: " + (end - start) / 4000.0); 


根据 操作 系统 的 不 同 ， 在 不 同 的 地 方 运行 这 段 代 码 会 导致 截然 不 同 的 结果 。 大 多 数 Unix 
系统 所 报告 的 开销 大 约 在 10%~20%。 早 期 版 本 Windows 的 调度 器 很 差 ， 比 如 在 某 些 
Windows XP 版 本 上 ， 所 报告 的 调度 开销 高 达 180% (因此 ，1000 个 1 毫秒 的 睡眠 需要 2.8 
秒 )。 甚 至 有 报道 称 ， 一 些 专 有 操作 系统 的 厂商 在 其 发 布 的 系统 中 插入 了 部 分 代码 ， 以 检 
测 运 行 的 是 否 为 基准 测试 ， 如 果 是 的 话 则 骗 过 这 些 指标 。 

计时 (timing) 对 于 性 能 测量 、 进 程 调度 以 及 应 用 栈 中 的 许多 其 他 部 分 至 关 重 要 ， 所 以 让 
我 们 来 看 看 Java 平台 是 如 何 处 理 计时 的 ， 并 深入 了 解 JVM 和 底层 操作 系统 是 如 何 提 供 支 
持 的 。 


3.4.2” ”时间 问 题 


尽管 存在 像 POSIX 这 样 的 工业 标准 ， 但 是 不 同 的 操作 系统 还 是 会 有 非常 不 同 的 行为 。 
比如 ， 考 虑 os:::javaTimeMitLLts() 函数 。 在 OpenJDK 中 ， 这 个 函数 会 包含 与 有 具 体操 
作 系 统 相 关 的 调用 ， 而 正 是 这 些 调用 在 完成 实际 的 工作 ， 并 最 终 提 供 Java 的 System. 
currentTimeMillis() 方法 要 返回 的 值 。 


正如 2.5 节 所 述 ， 由 于 它 依赖 于 必须 由 主机 操作 系统 提供 的 功能 ， 因 此 0s::javaTimeMillis() 
必须 实现 为 原生 方法 。 下 面 是 在 BSD Unix (比如 Apple 的 macOS 操作 系统 ) 上 实现 的 
国 数 : 
jLong os::javaTimeMillis() { 
timeval time; 
int status = gettimeofday(&time, NULL); 


assert(status != -1, "bsd error"); 
return jlong(time.tv_sec) * 1000 + jlong(time.tv_usec / 1000); 
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Solaris、Linux， 其 至 AIX 的 版 本 都 与 BSD 的 情况 非常 相似 ， 但 Microsoft Windows 版 本 的 
代码 完全 不 同 : 
jLong os::javaTimeMillis() { 
if (UseFakeTimers) { 
return fake_time++; 
} elsef 
FILETIME wt; 
GetSystemTimeAsFileTime(&wt); 
return windows_to_java_time(wt); 
} 
} 


Windows 使 用 了 一 个 64 位 的 FILETIME 类 型 来 存储 自 1601 年 以 来 的 、 以 100 纳 秒 为 单位 的 
时 间 ， 而 不 是 Unix 的 timeval 结构 。Windows 还 有 一 个 系统 时 钟 的 “真实 精度 ”的 概念 ， 
具体 取决 于 可 用 的 物理 计时 硬件 。 因 此 ， 在 不 同 的 Windows 机 器 上 ，Java 的 计时 调用 的 行 
为 会 有 很 大 差异 。 

操作 系统 之 间 的 差异 并 不 只 是 计时 ， 下 一 节 将 看 到 更 多 内 容 。 


3.4.3 上下文 切换 

上 下 文 切 换 是 指 操作 系统 调度 器 移 除 当 前 正在 运行 的 线程 或 任务 ， 并 将 其 替换 为 等 待 中 的 
线程 。 有 几 种 不 同类 型 的 上 下 文 切 换 ， 但 一 般 来 说 ， 它 们 都 涉及 交换 正在 执行 的 指令 和 线 
程 的 栈 状态 。 

无 论 是 用 户 线程 之 间 的 上 下 文 切换 ， 还 是 从 用 户 模式 进入 内 核 模式 (有 了 时 称 为 模式 切换 )， 
都 是 一 个 成 本 很 高 的 操作 。 后 一 种 情况 尤为 重要 ， 因 为 用 户 线程 在 其 时 间 片 中 途 可 能 需要 
切换 到 内 核 模式 以 便 执 行 某 些 功能 。 但 是 ， 这 种 切换 将 强制 请 空 指令 和 其 他 高 速 缓存 ， 因 
为 用 户 空 间 代 码 所 访问 的 内 存 区 域 与 内 核 空 间 通 常 没 有 任何 交叉 。 

上 下 文 切换 到 内 核 模式 ， 将 使 TLB 和 其 他 可 能 的 高 速 缓存 失效 。 当 调用 返回 时 ， 这 些 缓存 
必须 重新 填充 ， 因 此 内 核 模式 切换 的 影响 会 一 直 持 续 到 控制 权 返 回 到 用 户 空间 之 后 。 这 将 
导致 系统 调用 的 真实 成 本 被 掩盖 ， 如 图 3-7 所 示 。; 















































注 3: Livio Stoares and Michael Stumm, “FlexSC:Flexible System Call Scheduling with Exception-Less System 
Calls,” in OSDI’10, Proceedings of the 9th USENIX Conference on Operating Systems Design and 
Implementation (Berkeley, CA: USENIX Association, 2010) ,33-46。 
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图 3-7: 系统 调用 的 影响 (Soares 和 Stumm，2010 年 ) 


为 了 尽 可 能 地 缓解 这 种 情况 ，Linux 提供 了 一 种 称 为 vDSO (virtual dynamically shared 
object) 的 机 制 。 这 是 用 户 空间 中 的 一 个 内 存 区域 ， 用 于 加 速 那些 并 不 是 真 的 需要 内 核 权 
限 的 系统 调用 。 它 通过 避免 实际 执行 上 下 文 切换 到 内 核 模 式 来 提升 速度 。 下 面 通过 一 个 示 
例 来 看 看 它 在 实际 的 系统 调用 中 是 如 何 工作 的 。 

一 个 非常 常见 的 Unix 系统 调用 是 gettimeofday()。 它 返回 的 是 操作 系统 所 理解 的 “挂钟 
时 间 ”(wallclock time)。 在 幕后 ， 它 实际 上 只 是 读 取 一 个 内 核 数 据 结构 来 获取 系统 时 钟 时 
间 。 由 于 该 操作 无 副作用 ， 因 此 它 实 际 上 不 需要 特权 访问 。 

如 果 可 以 用 vDSO 来 安排 这 个 数据 结构 ， 并 将 其 映射 到 用 户 进 程 的 地 址 空间 中 ， 就 不 需要 
执行 切换 到 内 核 模 式 的 操作 。 因 此 ， 也 就 不 用 再 付出 图 3-7 中 所 示 的 重新 填充 成 本 了 。 
考虑 到 大 多 数 Java 应 用 程序 需要 访问 计时 数据 ， 所 以 如 果 能 提升 其 性 能 ， 那 肯定 很 受 欢 
迎 。 通 过 vDSO 机 制 将 这 个 例子 稍 作 推 广 ， 即 使 只 能 用 在 Linux 上 ， 也 是 有 用 的 技术 。 


3.5 一 个 简单 的 系统 模型 


本 市 将 介绍 一 个 简单 的 模型 ， 用 于 描述 可 能 出 现 的 性 能 问题 的 基本 来 源 。 这 个 模型 通过 可 
以 在 基本 子 系 统 上 观测 到 的 操作 系统 信息 来 表示 ， 并 可 以 直接 关联 到 标准 的 Unix 命令 行 
工具 的 输出 。 

该 模型 基于 一 个 简单 的 概念 : 一 个 Java 应 用 程序 运行 在 一 个 Unix 或 类 Unix 的 操作 系统 
上 。 图 3-8 显示 了 该 模型 的 基本 组 件 ， 其 中 包括 : 

。 应 用 程序 运行 所 基于 的 硬件 和 操作 系统 ; 

。 应 用 程序 运行 所 在 的 JVM (或 容器 ) ， 

。 应 用 程序 代码 本 身 ， 
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。 应 用 程序 调用 的 任何 外 部 系统 ， 
。 来 到 该 应 用 程序 的 外 部 输入 请 求 流量 。 





进入 流量 


外 部 系统 





操作 系统 








图 3-8: 简单 系统 模型 


系统 中 的 任何 一 方面 都 可 能 导致 某 个 性 全 
离 系 统 的 特定 部 分 ， 从 而 定位 到 出 现 性 外 


3.6 ”基本 探测 策略 


所 谓 性 能 良好 的 应 用 程序 ， 一 个 定义 就 是 能 有 效 地 利用 系统 资源 ， 这 包括 CPU 利用 率 、 
内 存 、 网 络 或 IO 带宽 。 


IE 


问题 。 有 一 些 简单 的 诊断 技术 可 以 用 来 缩小 或 隔 
问题 的 潜在 原因 ， 下 一 市 将 介绍 。 


Et 








如 果 一 个 应 用 程序 导致 一 个 或 多 个 资源 的 使 用 达到 极限 ， 其 结果 就 是 出 现 了 
性 能 问题 。 


任何 性 能 诊断 的 第 一 步 就 是 要 识别 出 哪 种 资源 的 使 用 达到 了 极限 。 如 果 不 处 理 资 源 短缺 问 
题 ， 就 无 法 调 优 适当 的 性 能 指标 一 一 要 么 增加 可 用 资源 ， 要 么 提高 使 用 效率 。 

另外 值得 注意 的 是 ， 操 作 系统 本 身 通 常 不 应 该 成 为 影响 系统 利用 率 的 主要 因素 ， 其 作用 
是 代表 用 户 进程 管理 资源 ， 而 不 是 自己 去 消耗 资源 。 这 一 规则 唯一 例外 的 情况 是 当 资源 
已 经 非常 稀缺 时 ， 操 作 系统 就 会 难以 分 配 足够 的 资源 来 满足 用 户 的 需求 。 对 于 大 多 数 现 
代 的 服务 器 级 硬件 来 说 ， 这 种 情况 只 有 在 IO (偶尔 是 内 存 ) 的 需求 大 大 超过 供应 能 力 时 
才 会 出 现 。 
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3.6.1 利用 CPU 

应 用 程序 性 能 的 一 个 关键 指标 是 CPU 的 利用 率 。CPU 周期 往往 是 应 用 程序 所 需要 的 最 关 
键 资源 ， 因 此 ， 有 效 地 利用 这 些 资 源 对 于 获得 良好 的 性 能 至 关 重 要 。 在 高 负载 时 期 ， 应 用 
程序 的 目标 应 该 是 尽 可 能 地 接近 100% 的 利用 率 。 

当 分 析 应 用 程序 性 能 时 ， 系 统 必 须 在 足够 的 负载 下 才能 发 挥 其 性 能 。 空 闲 的 
应 用 程序 的 行为 通常 对 性 能 工作 没有 任何 意义 。 











每 个 性 能 工程 师 都 应 该 知道 的 两 个 基本 工具 是 vmstat 和 iostat。 在 Linux 和 其 他 Unix 系 
统 上 ， 这 些 命令 行 工具 分 别提 供 了 对 虚拟 内 存 和 IO 子 系统 的 当前 状态 的 直接 且 非 常 有 用 
的 信息 。 虽 然 这 些 工具 只 提供 了 整个 主机 层面 的 数字 ， 但 往往 足以 为 更 详细 的 诊断 方法 指 
明 方向 。 接 下 来 看 一 个 如 何 使 用 vmstat 的 示例 : 


$ vmstat 1 














r b swpd free buff cache si so bi bo in csussy id wa st 
2 0 0 759860 248412 2572248 0 0 0 80 63 127 8 0 92 0 0 
2 0 0 759002 248412 2572248 0 0 0 0 55 103 12 © :88 0 0 
1 0 0 758854 248412 2572248 0 0 0 80 57 116 5 1 94 0 0 
3 0 0 758604 248412 2572248 0 0 0 14 65 142 10 0 90 0 0 
2 0 0 758932 248412 2572248 0 0 0 96 52 100 8 0 92 0 0 
2 0 0 759860 248412 2572248 0 0 0 0 60 112 3 0 97 0 0 














vmstat 后 面 的 参数 1 表示 希望 它 提供 持续 的 输出 (直到 通过 Ctrl-C 中 断 ) ， 而 不 是 只 提供 
一 个 快照 。 新 的 输出 行 每 秒 打印 一 次 ， 这 使 得 性 能 工程 师 可 以 在 执行 初始 性 能 测试 的 同时 
让 这 个 输出 保持 运行 (也 可 以 将 其 输出 到 一 个 日 志 中 )。 

vmstat 的 输出 相对 容易 理解 ， 它 包含 了 大 量 的 有 用 信息 ， 分 为 以 下 几 个 部 分 。 


1. 前 两 列 显示 了 可 运行 的 〈r) 和 阻塞 的 〈b) 进程 的 数量 。 

2. 内 存 部 分 显示 了 交换 区 和 空 闪 内 存 的 数量 ， 以 及 用 于 缓冲 区 和 高 速 缓存 的 内 存 数量 。 

3. 交换 区 部 分 显示 了 从 磁盘 上 交换 进来 的 内 存量 ， 以 及 交换 到 磁盘 上 的 内 存量 (si 和 
so)。 现 代 服务 器 级 的 机 器 通常 不 会 有 太 多 的 交换 活动 。 

4. 块 的 输入 输出 计数 (bi 和 bo) 显示 的 是 从 块 (MO) 设备 接收 到 的 512 字 节 大 小 的 块 的 
个 数 ， 以 及 发 送 给 块 (VO) 设备 的 个 数 。 

5. 在 系统 部 分 ， 显 示 的 是 中 断 次 数 (in) 和 每 秒 上 下 文 切换 次 数 (cs)。 

6. CPU 部 分 包含 一 些 直 接 相 关 的 指标 ， 以 百分比 表示 CPU 时 间 。 它 们 依次 是 用 户 时 

间 (us)、 内 核 时 间 (sy， 表 示 “ 系 统 时 间 ”)、 空 闪 时 间 (id)、 等 待 时 间 (wa) 和 “被 

盗 时 间 ”(st， 用 于 虚拟 机 )。 


本 书 剩余 部 分 还 会 介绍 很 多 其 他 更 复杂 的 工具 。 不 过 千 万 不 要 忽视 我 们 所 掌握 的 基本 工 
有 具 。 复 杂 的 工具 往往 会 误导 我 们 的 行为 ， 而 那些 简单 的 工具 离 进程 和 操作 系统 比较 近 ， 反 
而 可 以 清晰 地 给 出 系统 的 实际 表现 。 


让 我 们 来 考虑 一 个 例子 。3.4.3 闻 讨 论 了 上 下 文 切换 的 影响 ， 在 图 3-7 中 ， 我 们 也 看 到 了 












































从 完整 上 下 文 切换 到 内 核 空间 的 潜在 影响 。 然 而 ， 无 论 是 在 用 户 线程 之 间 还 是 在 内 核 空间 
中 ， 上 下 文 切换 都 不 可 避免 地 会 浪费 CPU 资源 。 


一 个 调 优 好 的 程序 应 该 能 最 大 限度 地 利用 其 资源 ， 尤 其 是 CPU。 对 于 主要 依赖 计算 的 工作 
负载 (“CPU 密集 型 ”问题 )， 甚 目标 是 使 在 用 户 空间 工作 的 CPU 利用 率 接近 100%。 


换 句 话说， 如 果 观 察 到 CPU 的 利用 率 没有 接近 100% 的 用 户 时 间 ， 那 么 接 下 来 显然 要 问 的 
就 是 : 为 什么 不 呢 ? 是 什么 原因 导致 程序 没有 实现 这 个 目标 ? 是 由 锁 引 起 的 意外 上 下 文 切 
换 导 致 的 问题 吗 ? 还 是 由 于 IO 和 争 用 导致 的 阻塞 ? 


vmstat 工具 可 以 在 大 多 数 操作 系统 (尤其 是 Linux) 上 显示 发 生 上 下 文 切换 的 次 数 ， 所 以 
运行 vmstat 1 可 以 让 分 析 人 员 看 到 上 下 文 切 换 的 实时 效果 。 如 果 一 个 进程 没有 实现 100% 
的 用 户 空间 CPU 利用 率 ， 而 且 还 显示 出 很 高 的 上 下 文 切换 率 ， 那 么 这 个 进程 很 可 能 是 阻 
塞 在 VO 上 了 ， 或 是 遇 到 了 线程 锁 的 和 争 用 。 


然而 单 靠 vmstat 的 输出 还 不 足以 完全 分 辨 出 到 底 是 哪 种 情况 。vmstat 可 以 帮助 分 析 人 员 
检测 到 IO 问题 ， 因 为 它 提供 了 一 个 粗略 的 IO 操作 视图 ， 但 是 要 实时 检测 线程 锁 争 用 情 
况 ， 应 该 使 用 VisualVM 这 样 的 工具 来 显示 运行 进程 中 的 线程 状态 。 另 外 一 个 常用 的 工具 
是 基于 统计 的 线程 剖析 器 ， 它 可 以 对 栈 进行 采样 以 提供 阻塞 代码 的 视图 。 


3.6.2 ”垃圾 收集 


我 们 在 第 6 章 将 看 到 在 HotSpot JVM (迄今 为 止 最 常用 的 JVM) 中 ， 内 存 是 启动 时 分 配 ， 
并 在 用 户 空 间 内 进行 管理 。 这 意味 着 不 需要 使 用 系统 调用 (如 sbrk()) 来 分 配 内 存 ， 进 而 
也 说 明了 用 于 垃圾 收集 的 内 核 切换 活动 相当 少 。 


因此 ， 如 果 某 个 系统 表现 出 的 系统 CPU 利用 率 过 高 ， 那 么 它 一 定 没 有 把 大 量 时 间 花 在 垃 
圾 收集 上 ， 因 为 垃圾 收集 活动 会 让 用 户 空间 的 CPU 周期 凯 升 ， 但 不 会 影响 内 核 空间 的 
CPU 利用 率 。 


另外 ， 如 果 一 个 JVM 进程 在 用 户 空间 使 用 了 100% (或 接近 这 个 值 ) 的 CPU， 那么 垃圾 收 
集 往往 就 是 罪魁 祸首 。 在 分 析 一 个 性 能 问题 时 ， 如 果 简 单 的 工具 〈 如 vmstat) 显示 出 CPU 
利用 率 一 直 在 100%， 但 儿 乎 所 有 的 周期 都 是 在 用 户 空间 消耗 的 ， 那 我 们 就 应 该 会 问 ， 这 
样 的 利用 率 是 JVM 还 是 用 户 代码 导致 的 ?几乎 在 所 有 情况 下 ，JVM 的 用 户 空间 CPU 利用 
率 高 都 是 由 垃圾 收集 子 系统 造成 的 ， 所 以 一 个 有 用 的 经 验 法 则 是 检查 垃圾 收集 日 志 并 查看 
日 志 中 新 条 目 增加 的 频率 。 


JVM 中 的 垃圾 收集 日 志 成 本 非常 低 ， 以 致 即使 用 最 精确 的 整体 成 本 测量 手段 也 无 法 可 靠 地 
将 甚 与 随机 背景 噪声 区 分 开 来 。 将 垃圾 收集 日 志 用 作 分析 的 数据 产 也 是 非常 有 价值 的 。 因 
此 ， 对 于 所 有 的 JVM 进程 ， 特 别 是 生产 环境 中 的 JVM， 启 用 垃圾 收集 日 志 非 常 有 必要 。 
本 书后 面 将 对 垃圾 收集 以 及 垃圾 收集 日 志 进 行 大 量 讨 论 。 但 是 现在 ， 我 们 鼓励 读者 咨询 他 
们 的 运 维 人 员 并 确认 生产 环境 中 是 否 开启 了 垃圾 收集 日 志 。 如 果 没 有 ， 那 么 第 7 章 的 一 个 
核心 要 点 就 是 建立 一 个 策略 来 实现 这 一 点 。 
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3.6.3 1/O 


文件 1O 在 传统 上 一 直 是 整个 系统 性 能 中 不 太 好 解决 的 方面 之 一 。 这 在 一 定 程度 上 是 因为 
它 与 五 花 八 门 的 物理 硬件 关系 更 密切 ， 工 程 是 们 经 常用 “旋转 的 铁锈 ”之 类 的 话 来 调侃 
它 ， 但 这 也 是 因为 1O 不 像 操作 系统 的 其 他 部 分 那样 有 清晰 的 抽象 。 

以 内 存 为 例 ， 作 为 一 个 隔离 机 制 ， 虚 拟 内 存 非常 优雅 ， 而 且 表现 很 好 。 然 而 ，IO 没有 一 
个 同等 的 抽象 来 为 应 用 程序 开发 人 员 提 供 适当 的 隔离 。 

幸运 的 是 ， 虽 然 大 多 数 Java 程序 会 涉及 一 些 简单 的 VO， 但 是 大 量 使 用 1/O 子 系统 的 应 用 
程序 相对 较 少 ， 特 别 是 大 多 数 程序 不 会 在 大 量 消耗 CPU 或 内 存 的 同时 ， 再 试图 让 VO 也 多 
和 起 来 。 
不 仅 如 此 ， 惯 用 的 运 维 实践 也 带 来 了 这 样 一 种 文化 ， 产 品 工程 师 已 经 意识 到 VO 的 限制 ， 
他 们 会 积极 地 监控 进程 是 不 是 在 大 量 使 用 IO。 

对 于 性 能 分 析 员 /工程 师 来 说 ， 只 要 对 应 用 程序 的 IO 行为 有 所 了 解 就 是 够 了 。 像 tostat 
(甚至 是 wnstat) 这 样 的 工具 都 有 基本 的 计数 器 〈 比 如 ， 输 入 或 输出 的 块 )， 这 往往 是 进行 
基本 诊断 所 需要 的 全 部 内 容 ， 特 别 是 当 我 们 可 以 假设 每 个 主机 上 只 有 一 个 1O 密集 型 应 用 
程序 时 ， 这 些 工具 的 价值 更 大 。 

最 后 ， 美 于 1O， 值 得 一 提 的 是 ， 既 依赖 0， 又 对 性 能 有 严格 要 求 的 这 类 应 用 程序 越 来 越 
多 了 。 

内 核 旁 路 /O 

对 于 某 些 高 性 能 应 用 程序 来 说 ， 使 用 内 核 将 数据 从 比如 网 卡 上 的 缓冲 区 复制 到 用 户 空间 区 
域 的 成 本 过 高 。 相 反 ， 可 以 使 用 专用 的 硬件 和 软件 将 数据 直接 从 网 卡 上 映射 到 用 户 可 访 | 
的 区 域 。 这 种 方法 既 避 免 了 “双重 复制 "， 也 避免 了 跨越 用 户 空间 和 内 核 之 间 的 边界 ， 正 


如 图 3-9 所 示 。 
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3-9: 内 核 旁 路 |/O 
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然而 ，Java 并 没有 为 这 种 模型 提供 具体 的 支持 ， 而 是 希望 使 用 它 的 应 用 程序 依赖 于 定制 
(原生 ) 的 库 来 实现 所 需 语 义 。 这 种 模式 非常 有 用 ， 越 来 越 多 需要 高 性 能 IO 的 系统 都 实现 
了 它 。 

在 某 种 程度 上 ， 这 让 人 联想 到 Java 的 New IO (NIO) API， 它 的 引入 就 是 为 

了 支持 Java 的 IO 绕 过 Java 堆 直 接 与 原生 内 存 和 底层 WO 一 起 工作 。 





本 章 讨论 了 运行 在 “ 裸 金属 ”(bare metal) 上 的 操作 系统 。 然 而 ， 现 在 有 越 来 越 多 的 系统 
在 虚拟 化 环境 中 和 运行， 因此， 本 章 最 后 来 简单 看 看 虚拟 化 如 何 从 根本 上 改变 了 我 们 对 Java 
应 用 程序 性 能 的 看 法 。 


3.6.4 机械 共鸣 
机 械 共鸣 是 这 样 一 种 理念 ， 充 分 理解 硬件 并 抱 以 欣赏 对 于 获得 额外 的 性 能 非常 有 利 。 
要 成 为 一 名 赛车 手 ， 你 不 必 成 为 工程 师 ， 但 是 一 定 要 有 机 械 共鸣 。 























Jackie Stewart 


这 个 词 是 由 Martin Thompson 引入 到 计算 机 领域 的 ， 直 接 引 用 了 Jackie Stewart 关于 车 的 说 
法 。 然 而 除了 极端 情况 之 外 ， 在 处 理 生产 问题 并 研究 提高 应 用 程序 的 整体 性 能 时 ， 对 本 童 
所 概括 的 一 些 关 注 点 有 个 基本 的 了 解 也 是 很 有 帮助 的 。 


对 于 很 多 Java 开发 人 员 来 说 ， 虽 然 机 械 共鸣 很 重要 ， 但 是 它 有 可 能 被 忽视 。 这 是 因为 ， 为 
让 开发 人 员 从 各 种 性 能 问题 中 解脱 出 来 ，JVM 提供 了 一 个 远离 硬件 的 抽象 层 。 通 过 理解 
JVM 以 及 它 与 硬件 之 间 的 交互 关系 ， 开 发 人 员 也 可 以 成 功 地 将 Java 和 JVM 应 用 于 高 性 
能 、 低 延迟 领域 。 还 有 很 重要 的 一 点 需要 注意 ， 即 JVM 实际 上 会 让 推理 解决 性 能 和 机 械 
共鸣 问题 变 得 更 加 困难 ， 因 为 有 更 多 需要 考虑 的 问题 。 第 14 章 将 描述 高 性 能 日 志和 消息 
传递 系统 是 如 何 工作 的 ， 以 及 如 何 提升 机 械 共鸣 。 


来 看 一 个 例子 : 高 速 缓存 行 的 行为 。 

本 章 讨 论 了 处 理 器 高 速 缓存 的 好 处 。 我 们 可 以 通过 高 速 缓存 行 来 提取 内 存 块 。 在 多 线程 环境 
中 ， 当 有 两 个 线程 试图 读 取 或 写 入 位 于 同一 缓存 行 上 的 某 个 变量 时 ， 缓存 行 可 能 会 引发 问题 。 
当 两 个 线程 现在 试图 修改 同一 高 速 缓存 行 时 ， 就 会 发 生 竞争 。 第 一 个 线程 将 使 第 二 个 线程 
上 的 高 速 缓存 行 失效 ， 进 而 导致 它 需 要 从 内 存 中 重新 读 取 。 而 一 旦 第 二 个 线程 执行 了 修改 
操作 ， 又 会 使 第 一 个 线程 的 缓存 行 失效 。 这 种 互相 影响 的 行为 会 导致 性 能 下 降 ， 我 们 称 其 
为 伪 共享 (false sharing) ， 那 么 如 何 解决 这 种 问题 呢 ? 


机 械 共鸣 告诉 我 们 ， 首 先 需要 理解 正在 发 生 的 事情 ， 只 有 理解 了 之 后 才能 决定 如 何 解 决 。 
在 Java 中， 对象 中 的 字段 布局 是 没有 保证 的 ， 这 意味 着 很 容易 出 现 多 个 变量 共享 同一 缓存 
行 的 情况 。 规 避 这 个 问题 的 一 个 方法 是 在 变量 周围 添加 填充 (padding)， 强 制 它们 进入 不 
同 的 高 速 缓存 行 上 。 在 14.3.1 节 讲 到 “队列 ”(queue) 时 ， 我 们 会 看 到 ， 它 使 用 了 Agrona 
项 目 中 的 一 个 低 延 迟 队 列 来 解决 这 个 问题 。 
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3.7 虚拟 化 


虚拟 化 有 多 种 形式 ， 但 最 常见 的 一 种 形式 是 在 已 运行 的 操作 系统 上 以 单个 进程 的 形式 运行 
一 个 操作 系统 的 副本 。 这 导致 了 图 3-10 所 示 的 情况 ， 虚 拟 环境 作为 一 个 进程 运行 在 一 个 非 
虚拟 化 的 (或 者 说 “真正 的 ”) 操作 系统 内 ， 而 这 个 非 虚拟 化 的 系统 是 在 真正 的 硬件 之 上 
执行 的 。 




















图 3-10: 操作 系统 的 虚拟 化 


如 果 要 全 面 讨论 虚拟 化 、 相 关 理论 及 其 对 应 用 程序 性 能 的 影响 ， 那 就 离 题 万 里 了 。 不 过 提 
几 点 虚拟 化 引起 的 差异 似乎 是 恰当 的 ， 特 别 是 考虑 到 当前 运行 在 虚拟 化 环境 或 云 环 境 中 的 
应 用 程序 越 来 越 多 了 。 


尽管 虚拟 化 早 在 20 世纪 70 年 代 就 在 IJBM 大 型 机 环境 中 开发 出 来 了 ， 但 直到 最 近 ，x86 架 
构 才 有 能 力 支 持 “ 真 正 的 ”虚拟 化 ， 这 一 点 可 以 用 如 下 3 个 条 件 来 判断 : 


。 在 虚拟 化 操作 系统 上 运行 的 程序 ,其 行为 应 该 与 在 裸 机 ( 即 非 虚拟 化 ) 上 运行 时 基本 相同 ，; 
。 虚拟 机 监视 器 (hypervisor) 必须 调解 所 有 对 硬件 资源 的 访问 ，; 

。 虚拟 化 的 开销 必须 尽 可 能 小 ， 不 能 占用 太 多 的 执行 时 间 。 

在 一 个 正常 的 非 虚拟 化 系统 中 ， 操 作 系 统 内 核 以 特殊 的 特权 模式 运行 (因此 需要 切换 到 内 
核 模 式 )， 这 使 得 操作 系统 可 以 直接 访问 硬件 。 但 是 ， 在 虚拟 化 系统 中 ， 禁 止 客户 操作 系 
统 (Guest OS) 直接 访问 硬件 。 

一 种 常见 的 方法 是 将 特权 指令 改写 为 非特 权 指 令 。 此 外 ， 操 作 系 统 内 核 的 一 些 数据 结构 
需要 被 “影子 化 ”(shadowed) ， 以 防止 在 上 下 文 切换 过 程 中 出 现 过 度 的 高 速 缓存 冲刷 
(如 TLB)。 

某 些 现代 的 Intel 兼容 CPU 设计 了 一 些 硬件 特性 ， 旨 在 提高 虚拟 化 操作 系统 的 性 能 。 但 是 
很 明显 ， 即 使 有 硬件 辅助 ， 在 虚拟 环境 中 运行 也 会 让 性 能 分 析 和 调 优 变 得 复杂 。 
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3.8 JVM 和 操作 系统 


通过 支持 Java 代码 的 公用 接口 ，JVM 提供 了 一 个 独立 于 操作 系统 的 可 移植 执行 环境 。 然 
而 ， 对 于 某 些 基础 服务 ， 比 如 线程 调度 (其 至 像 非常 常见 的 获取 系统 时 钟 的 时 间 ) 就 必须 
要 访问 底层 的 操作 系统 。 
这 种 能 力 是 通过 本 地 方法 提供 的 ， 此 类 方法 用 关键 字 native 来 标记 。 它 们 用 C 语言 编写 ， 
但 是 可 以 像 普 通 Java 方法 一 样 访问 。 这 类 接口 被 称 为 Java 本 地 接口 (Java native interface， 
JNI)。 比 如 ，java.Lang.0bject 声明 了 下 面 这 些 非 私有 的 本 地 方法 : 

public final native Class<?> getClass(); 

public native int hashCode(); 

protected native Object clone() throws CloneNotSupportedException; 

public final native void notify(); 


public final native void notifyAll(); 
public final native void wait(long timeout) throws InterruptedException; 


所 以 这 些 方法 处 理 的 都 是 相对 底层 的 平台 问题 。 来 看 一 个 更 直接 和 更 熟悉 的 例子 : 获取 系 
统 时 间 。 

芳 虑 0s: :javaTimeMillis() 函数 。 这 是 负责 实现 Java 中 System.currentTimeMillis() 静态 
方法 的 、 特 定 于 系统 的 代码 。 虽 然 负 责 实际 工作 的 代码 是 用 C++ 实现 的 ， 但 在 Java 中 通 
过 一 个 C 语言 的 “桥接 ”代码 访问 。 来 看 一 下 这 个 代码 在 HotSpot 中 实际 是 如 何 调用 的 。 


如 图 3-11 所 示 ， 本 地 System.currentTimeMillis() 方法 被 映射 到 了 JVM 入 口 点 方法 JVM_ 
CurrentTimeMillis() 中 。 映 射 通过 包含 在 java/lang/System.c 文件 中 的 Java 本 地 接口 Java_ 
java_lang_System_registerNatives() 来 实现 。 


System.currentTimeMillis () 


OS::javaTimeMillis () 











特定 于 平台 的 代码 











3-11: HotSpot 调用 栈 


JVM_CurrentTimeMillis() 是 对 虚拟 机 入 口 点 方法 的 调用 。 它 虽然 表现 为 一 个 C 函数 ， 但 实 
际 是 由 C++ 实现 的 ， 然 后 通过 C 调用 约定 导出 ， 最 终 会 调用 通过 一 系列 OpenJDK 宏 包 装 
起 来 的 0s::javaTimeMillis()。 
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该 方法 是 在 os 命名 空间 中 被 定义 的 ， 不 出 所 料 ， 它 取决 于 操作 系统 。 在 OpenJDK 中 , 方 
法 的 定义 由 源 代码 中 与 操作 系统 相关 的 子 目 录 提 供 。 这 里 简单 演示 了 Java 独立 于 平台 的 部 
分 是 如 何 调用 到 底层 操作 系统 和 硬件 提供 的 服务 中 的 。 


3.9 ”小结 


在 过 去 的 20 年 里 ， 处 理 器 设计 和 现代 硬件 发 生 了 巨大 的 变化 。 在 摩尔 定律 和 工程 上 的 限 
制 (特别 是 内 存 速 度 相对 较 慢 ) 的 驱动 下 ， 处 理 器 设计 的 进步 已 经 变 得 让 人 有 点 难以 理 
解 。 缓 存 未 命中 率 已 经 成 为 衡量 一 个 应 用 程序 性 能 最 明显 的 领先 指标 。 

在 Java 领域 ，JVM 的 设计 允许 它 使 用 额外 的 处 理 器 核心 ， 甚 至 对 于 单线 程 应 用 程序 代码 
也 是 如 此 。 这 意味 着 与 其 他 环境 相 比 ，Java 应 用 程序 已 经 从 硬件 趋势 中 获得 了 明显 的 性 能 
优势 。 

随 着 摩尔 定律 的 消逝 ， 人 们 的 注意 力 再 次 转向 软件 的 相对 性 能 上 。 注 重 性 能 的 工程 师 至 少 
需要 了 解 现代 硬件 和 操作 系统 的 基本 要 点 ， 以 确保 他 们 能 够 充分 利用 硬件 ， 而 不 是 反 其 道 
而 行 之 。 

下 一 章 将 介绍 性 能 测试 的 核心 方法 论 ， 并 且 讨 论 性 能 测试 的 主要 类 型 、 需 要 承担 的 任务 以 及 
性 能 工作 的 整个 生命 周期 。 我 们 还 将 列举 一 些 在 性 能 分 析 领 域 常见 的 最 佳 实践 和 反 模式 .。 
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性 能 测试 模式 与 反 模 式 





性 能 测试 会 因 不 同 的 原因 而 进行 。 本 章 将 介绍 团队 可 能 希望 执行 的 不 同类 型 的 测试 ， 并 讨 
论 每 种 类 型 的 最 佳 实践 。 

本 章 的 后 半 部 分 将 概述 一 些 可 能 会 困扰 性 能 测试 或 团队 的 常见 反 模式 ， 并 阐释 如 何 重 构 的 
解决 方案 ， 以 防止 它们 成 为 团队 的 问题 。 


Ab :十 上 米 

4.1 性 能 测试 的 类 型 

性 能 测试 经 常 因为 错误 的 原因 而 实施 ， 或 者 实施 得 很 糟糕 。 虽 然 发 生 的 原因 各 不 相同 ， 但 
其 根源 往往 在 于 没有 理解 性 能 分 析 的 本 质 ， 认 为 “有 总 比 没有 好 ”， 正 如 我 们 将 反复 看 到 
的 ， 这 种 看 法 真 假 参半 ， 非 常 危险 。 

比较 常见 的 错误 之 一 是 笼统 地 谈论 “性 能 测试 ”而 不 涉及 有 具体 内 容 。 事 实 上， 在 一 个 系统 
上 可 以 执行 多 种 不 同类 型 的 大 规模 性 能 测试 。 

好 的 性 能 测试 是 量化 的 。 它 们 提出 的 问题 可 以 得 到 一 个 数字 化 的 答案 ， 用 于 
作为 实验 输出 来 处 理 并 进行 统计 分 析 。 



















































































本 书 将 讨论 不 同类 型 的 性 能 测试 ， 它 们 的 目标 大 部 分 情况 下 是 独立 的 ， 偶 尔 会 有 交叉 ， 所 
以 在 思考 任何 一 个 特定 的 测试 时 ， 你 都 应 该 小 心 谨慎 。 在 规划 性 能 测试 时 ， 一 个 很 好 的 经 
验 法 则 就 是 直接 写 下 测试 要 回答 的 可 量化 的 问题 (并 向 管理 层 / 客户 确认 )， 并 说 明 这 些 问 
题 对 于 被 测试 的 应 用 程序 很 重要 的 原因 。 


以 下 是 一 些 最 常见 的 测试 类 型 ， 对 于 每 种 类 型 ， 我 们 还 给 出 了 一 个 示例 问题 。 
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延迟 测试 
终端 到 终端 的 交易 时 间 是 多 少 ? 
吞吐 量 测 试 
目前 的 系统 容量 能 处 理 多 少 个 并 发 交易 ? 
负载 测试 
系统 是 否 能 处 理 某 个 特定 的 负载 ? 
压力 测试 
系统 的 临界 点 是 什么 ? 
耐久 性 测试 
系统 长 期 运行 时 会 发 现 哪些 性 能 异常 现象 ? 
容量 规划 测试 
当 增 加 额外 的 资源 时 ， 系 统 的 规模 是 否 能 按 预期 扩展 ? 
退化 测试 
当 系 统 发 生 部 分 故障 时 会 出 现 什 么 情况 呢 ? 
下 面 让 我 们 依次 来 详细 了 解 这 些 测试 类 型 。 


4.1.1 延迟 测试 

这 是 最 常见 的 性 能 测试 类 型 之 一 ， 因 为 它 通 向 与 管理 层 直接 感 兴趣 的 系统 观测 对 象 密切 相 
关 : 我 们 的 客户 等 竺 交易 或 页 面 加 载 的 时 间 有 多 长 ? 这 是 一 把 双 刃 剑 ， 因 为 延迟 测试 所 要 
回答 的 量化 问题 似乎 非常 明显 ， 以 致 它 可 能 会 掩盖 识别 其 他 类 型 的 性 能 测试 所 需要 的 量化 
问题 的 必要 性 。 


对 延迟 进行 调 优 ， 其 目标 通常 是 直接 改善 用 户 体 验 ， 或 者 满足 服务 等 级 协议 
(SLA), 



































然而 ， 即 使 在 最 简单 的 情况 下 ， 延 迟 测试 也 有 一 些 必 须 谨慎 对 待 的 微妙 之 处 ， 其 中 最 值得 
注意 的 是 ， 对 于 衡量 应 用 程序 对 请 求 的 响应 程度 而 言 ， 简 单 的 平均 数 并 不 是 很 有 用 (相关 
内 容 参见 5.3 节 )。 


4.1.2 吞吐 量 测试 

吞吐 量 可 能 是 性 能 测试 时 第 二 个 常见 的 观测 量 。 在 某 些 意义 上 ， 其 至 可 以 将 其 看 作 等 同 于 
延迟 。 

例如 ， 当 进行 延迟 测试 时 ， 有 一 点 非常 重要 ， 即 在 生成 延迟 结果 的 分 布 时 ， 需 要 说 明和 控 
制 正在 进行 的 并 发 交易 数 。 



































所 观测 到 的 系统 延迟 应 该 在 已 知 和 受 控 的 否 吐 量 水 平 下 给 出 。 








同样 ， 我 们 通常 在 监控 延迟 的 同时 进行 否 吐 量 测 试 ， 通 过 留意 延迟 分 布 何 时 会 突然 发 生变 
化 一 一 实际 上 是 系统 的 一 个 “临界 点 ”( 也 称 为 拐点 ) 来 判断 “最 大 吞吐 量 "。 正 如 我 们 将 
看 到 的 ， 压 力 测试 的 目的 就 是 确定 这 样 的 点 以 及 它们 出 现时 的 负载 水 平 。 


然而 ， 否 吐 量 测 试 是 测量 系统 开始 降级 之 前 观测 到 的 最 大 否 吐 量 。 


4.1.3 ”负载 测试 

负载 测试 与 吞吐 量 测 试 〈 或 压力 测试 ) 的 不 同 之 处 在 于 ， 它 通常 被 定义 为 二 进 制 测试 ， 即 
系统 能 不 能 处 理 这 个 预 设 的 负载 。 在 预期 的 业务 事件 之 前 ， 有 时 要 实施 负载 测试 ， 比 如 新 
的 客户 或 市 场 有 可 能 使 应 用 程序 的 流量 激增 。 还 有 一 些 情况 下 也 需要 进行 此 类 测试 ， 比 如 
广告 活动 、 社 交 媒 体 事 件 和 “病毒 式 营销 ”。 


4.1.4 压力 测试 

我 们 可 以 把 压力 测试 看 作 一 种 确定 系统 还 有 多 少 余 量 空间 的 方法 。 该 测试 通常 是 通过 将 系 
统 置 于 稳定 的 交易 状态 来 进行 的 ， 也 就 是 在 某 个 指定 的 吞吐 量 水 平 (通常 是 当前 的 峰值 ) 
之 下 5 

压力 测试 会 缓慢 地 增加 并 发 交易 数 ， 直 到 我 们 观测 的 系统 数据 开始 下 降 。 

通过 观测 数据 刚 开 始 下 降 时 的 值 ， 就 可 以 确定 系统 在 吞吐 量 汕 试 中 可 以 达到 的 最 大 吞 


吐 量 。 


4.1.5 耐久 性 测试 

有 些 问题 只 有 在 更 长 的 时 间 内 (通常 以 天 为 单位 ) 才 会 出 现 。 这 些 问题 包括 缓慢 的 内 存 泄 
漏 、 高 速 缓存 污染 和 内 存 碎片 化 ， 尤 其 是 对 于 使 用 并 发 标记 和 扫描 垃圾 收集 器 (CMS) 的 
应 用 程序 来 说 ， 它 们 最 终 可 能 会 出 现 并 发 模式 失败 。 相 关内 容 参 见 7.3 节 。 

为 了 检测 这 些 问 题 ， 通常 的 方法 是 进行 耐久 性 测试 (也 称 为 浸泡 测试 )。 这 些 测 试 在 平均 
(或 高 ) 利用 率 下 运行 ， 但 是 系统 的 负载 要 处 于 观测 之 下 。 测 试 期 间 要 密切 监控 资源 利用 
水 平 ， 以 发 现任 何故 障 或 资源 耗 尽 的 情况 。 

这 种 类 型 的 测试 在 快速 响应 或 低 延 迟 的 系统 中 非常 常见 ， 因 为 这 些 系 统 通常 无 法 承受 一 次 
Full GC 周期 所 造成 的 STW 事件 的 时 间 (参见 第 6 章 和 后 续 章 节 ， 以 了 解 更 多 与 STW 事 
件 和 相关 垃圾 收集 概念 有 关 的 信息 ) 。 


4.1.6 容量 规划 测试 
容量 规划 测试 与 压力 测试 有 许多 相似 之 处 ， 但 它们 是 两 种 不 同类 型 的 测试 。 压 力 测 试 的 作 
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用 是 找 出 当前 系统 能 够 承受 的 负载 ， 而 容量 规划 测试 更 具 前 瞻 性 ， 旨 在 确定 系统 在 升级 后 
能 够 承受 的 负载 。 
因此 ， 容 量规 划 测试 通常 作为 常规 计划 的 一 部 分 进行 ， 而 非 应 对 特定 事件 或 威胁 。 


4.1.7 退化 测试 

退化 测试 也 称 为 部 分 失效 测试 。 虽 然 关 于 弹性 和 失败 恢复 测试 的 一 般 性 讨论 超出 了 本 书 的 
范围 ， 但 是 可 以 这 样 说 ， 在 监管 和 审查 最 严密 的 环境 (包括 银行 和 金融 机 构 ) 中 ， 失 败 恢 
复 测 试 不 仅 会 极为 严肃 地 进行 ， 而 且 通 常 都 会 有 细致 深入 的 规划 。 

就 目的 而 言 ， 这 里 唯一 要 考虑 的 弹性 测试 类 型 是 退化 测试 。 该 测试 的 基本 方法 是 ， 当 系 
统 在 相当 于 通常 生产 量 级 的 模拟 负载 下 运行 时 ， 一 个 组 件 或 整个 子 系统 突然 失去 了 能 力 ， 
此 时 观察 系统 会 有 何 表 现 。 例 如 ， 应 用 程序 服务 器 集群 突然 丢失 机 器 、 数 据 库 突然 丢失 
RAID 磁盘 ， 或 网 络 带宽 突然 下 降 等 。 

在 进行 退化 测试 时 ， 主 要 观测 对 象 包括 交易 延迟 分 布 和 吞吐 量 。 

部 分 故障 测试 有 一 个 特别 有 意思 的 子 类 型 ， 叫 作 混 沌 猴 (chaos monkey)。 这 是 以 Netflix 
公司 的 一 个 项 目 命名 的 ， 该 项 目 是 为 了 验证 其 基础 设施 的 健壮 性 。 

混沌 猴 背 后 的 理念 是 ， 在 一 个 真正 的 弹性 架构 中 ， 单 个 组 件 的 故障 不 应 该 导致 级 联 故障 ， 
也 不 应 该 对 整个 系统 产生 实际 影响 。 

混沌 猴 试图 通过 随机 终止 生产 环境 中 实际 使 用 的 活跃 进程 来 演示 这 一 点 。 

为 了 成 功 地 实现 混沌 猴 类 型 的 系统 ， 公 司 必须 具有 最 高 水 平 的 系统 卫生 、 服 务 设 计 和 运 维 
优势 。 然 而 ， 这 也 是 越 来 越 多 的 公司 和 团队 所 关注 和 向 往 的 领域 。 


EL 人 证 Sin 蕊 入 下 
4.2 ”最 佳 实践 入 门 
在 决定 性 能 调 优 的 工作 重点 时 ， 如 下 3 个 黄金 法 则 可 以 提供 有 用 的 指导 : 
。 确定 你 所 关心 的 是 什么 ， 并 想 好 如 何 去 衡 量 它 ; 
。 优化 重要 的 东西 ， 而 不 是 容易 优化 的 东西 ; 
。 先 抓 住 要 点 。 
第 二 点 有 一 个 相反 的 说 法 ， 就 是 提醒 自己 不 要 陷入 这 样 的 陷阱 ,过 于 重视 容易 测量 到 的 
量 。 并 不 是 每 一 个 可 观测 到 的 量 对 业务 都 有 重要 意义 ,但 有 时 人 们 会 倾向 于 报告 一 个 容易 
测量 的 量 ， 而 不 是 一 个 正确 的 量 。 


4.2.1 自 上 而 下 的 性 能 测试 
谈 到 Java 性 能 ， 很 多 工程 师 一 开始 容易 忽略 的 一 个 方面 就 是 ， 对 Java 应 用 程序 进行 大 
规模 的 基准 测试 通常 要 比试 图 获得 小 段 代 码 的 精确 性 能 数据 容易 。 第 5 章 将 详细 讨论 这 


个 问题 。 











































































































从 整个 应 用 程序 的 性 能 行为 入手， 这 种 方法 通常 称 为 自 上 而 下 的 性 能 测试 。 





为 了 充分 利用 自 上 而 下 的 方法 ,测试 团队 需要 一 个 测试 环境 ， 并 清楚 地 理解 需要 测量 和 优 
化 的 内 容 ， 以 及 性 能 工作 如 何 融 入 整个 软件 开发 生命 周期 。 


4.2.2 创建 一 个 测试 环境 


建立 一 个 测试 环境 是 大 多 数 性 能 测试 团队 的 首要 任务 之 一 。 只 要 有 可 能 ， 这 个 环境 应 该 是 
对 生产 环境 的 所 有 方面 的 精确 复制 ， 不 仅 包 括 应 用 服务 器 (哪些 服务 器 应 该 有 相同 数量 的 
CPU、 相 同 的 操作 系统 和 Java 运行 时 版 本 等 )， 还 包括 Web 服务 器 、 数 据 库 、 人 负载 均衡 器 
和 网 络 防火 墙 等 。 任 何 服务 (例如 不 容易 复制 的 第 三 方 网 络 服 务 ， 或 者 没有 足够 的 QA 能 
力 来 处 理 与 生产 环境 等 同 的 负载 ) 都 需要 模拟 ， 以 创建 一 个 有 代表 性 的 性 能 测试 环境 。 

有 时 ， 团 队 会 尝试 复 用 或 通过 分 时 共享 的 方式 来 使 用 现 有 的 QA 环境 以 进行 性 能 测试 。 对 
于 较 小 的 环境 或 一 次 性 测试 来 说 这 是 可 能 的 ， 但 不 要 低估 管理 成 本 以 及 它 可 能 带 来 的 调度 
和 协调 问题 。 












































如 果 性 能 测试 环境 与 它 所 要 代表 的 生产 环境 明显 不 同 ， 那 就 往往 无 法 得 到 任 
何 对 生产 环境 有 意义 的 东西 或 预测 能 





对 于 传统 的 不 是 基于 云 的 环境 ， 与 生产 环境 类 似 的 性 能 测试 环境 相对 容易 实现 ， 因 为 团队 只 
需 购买 和 生产 环境 中 使 用 的 同等 数量 的 物理 机 器 ， 然 后 以 与 生产 环境 完全 相同 的 方式 来 配置 。 


管理 层 有 时 会 抵制 这 些 额外 的 基础 设施 成 本 。 这 几乎 总 是 得 不 偿 失 的 ， 但 令 人 遗憾 的 是 ， 
很 多 公司 无 法 正确 评估 服务 中 断 带 来 的 损失 ， 从 而 导致 人 们 产生 一 种 想法 ， 即 认为 不 去 花 
钱 打造 一 个 精确 的 性 能 测试 环境 ， 所 节省 的 成 本 是 有 意义 的 ， 这 是 因为 他 们 并 设 有 正确 地 
考虑 到 QA 环境 不 能 正确 反映 生产 环境 所 带 来 的 风险 。 


技术 的 最 新 发 展 ， 特 别 是 云 技术 的 出 现 ， 改 变 了 这 种 相当 传统 的 局 面 。 按 需 供给 和 自动 伸 
缩 的 基础 设施 意味 着 越 来 越 多 的 现代 架构 不 再 符合 “购买 服务 器 、 绘 制 网 络 图 以 及 在 硬 们 
上 部 署 软件 ”的 模式 。 将 服务 器 基础 设施 视 为 “牲畜 ”(livestock) 而 非 “ 宠 物 ”(pet) 的 
DevOps 方法 ， 意 味 着 更 为 动态 化 的 基础 设施 管理 方法 正在 普及 。 

这 使 得 构建 一 个 像 生产 环境 的 性 能 测试 环境 更 具 挑 成 性 。 然 而 ， 这 也 让 创建 一 个 在 不 用 时 
就 能 关闭 的 测试 环境 成 为 可 能 。 虽 然 它 可 以 为 项 目 市 约 大 量 成 本 ,但 需要 一 个 按 计划 启动 
和 关闭 环境 的 适当 的 流程 。 
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注 1: 原文 是 “livestock, not pets”*"， 也 有 人 用 “pets vs cattle”， 指 的 是 两 种 服务 器 管理 模式 。 完 物 模式 ， 就 

是 把 服务 器 当 作 自 己 的 宠物 ， 每 台 服 务 器 都 有 一 个 可 爱 的 名 字 ， 当 服务 器 出 现 问题 时 ， 要 加 以 修复 。 
牲畜 模式 ， 就 是 不 再 特殊 对 待 服 务 器 ， 给 它们 起 像 Web01、Web02、Web03 这 样 的 名 字 ， 就 像 在 牲畜 
的 耳 杀 上 挂 的 编号 。 如 果 服 务 器 出 现 问题 ， 就 直接 用 另 一 个 服务 器 将 其 替换 掉 。 一 一 译 者 注 
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4.2.3 ”确定 性 能 要 求 
回顾 一 下 3.5 节 介 绍 的 简单 系统 模型 ， 该 模型 清楚 地 表明 了 系统 的 整体 性 能 并 不 完全 取决 
于 应 用 程序 代码 ， 容 器 、 操 作 系 统 和 硬件 都 有 其 作用 。 
因此 ， 作 为 评估 性 能 的 指标 ， 不 应 该 仅 从 代码 的 角度 考虑 ， 还 必须 将 系统 作为 一 个 整 
体 ， 考 虑 对 客户 和 管理 层 来 说 都 很 重要 的 观测 量 。 这 些 通常 被 称 为 性 能 非 功 能 性 需求 
(nonfunctional requirement，NFR ) ， 是 我 们 想 要 优化 的 关键 指标 。 
有 些 目标 是 显而易见 的 : 
。 将 95% 的 交易 时 间 减 少 100 毫秒 ， 
。 改进 系统 ， 使 现 有 硬件 上 的 吞吐 量 提 高 5 倍 ， 
。 将 平均 响应 时 间 减 少 30% 。 
其 他 目标 可 能 不 那么 明显 : 
。 将 服务 普通 客户 的 资源 成 本 降低 50% 
确保 即使 应 用 程序 集群 减少 了 $0%， 系 统 仍然 能 够 支持 25% 的 响应 目标 ; 
。 将 每 25 毫秒 延迟 下 的 客户 下 降 率 减少 25%。 
与 干系 人 进行 公开 讨论 ， 以 精确 确定 应 该 测量 的 内 容 以 及 要 达到 的 目标 是 至 关 重 要 的 。 理 
想 情 况 下 ， 此 讨论 应 该 成 为 性 能 优化 第 一 次 启动 会 议 的 一 部 分 。 


4.2.4 _ Java 特有 的 问题 


性 能 分 析 的 大 部 分 科学 知识 适用 于 任何 现代 软件 系统 。 然 而 ， 由 于 JVM 的 特性 ， 性 能 工 
程 师 应 该 注意 并 仔细 考虑 一 些 额 外 问题 。 该 问题 主要 来 自 JVM 的 动态 自我 管理 能 力 ， 例 
如 内 存 区 域 的 动态 调 优 。 
Java 特有 的 一 个 非常 重要 的 问题 与 IT 编译 有 关 。 现 代 JVM 会 分 析 哪 些 方法 正在 运行 ， 以 
选 定 可 以 进行 JIT 编译 的 候选 方法 ， 并 为 其 生成 优化 的 机 器 代码 。 这 意味 着 如 有 果 一 个 方法 
没有 被 JIT 编译 ， 那 它 会 处 于 如 下 两 种 情况 之 一 : 

该 方法 运行 频率 不 够 高 ， 无 法 被 编译 ， 

该 方法 太 大 或 太 复杂 ， 无 法 进行 编译 分 析 。 
第 二 种 情况 更 为 少见 。 然 而 ， 对 于 基于 JVM 的 应 用 程序 ， 刚 开始 的 性 能 优化 手段 是 打开 
简单 的 日 志 ， 看 看 哪些 方法 被 编译 了 ， 并 确保 在 应 用 程序 的 关键 代码 路 径 上 的 重要 方法 都 
会 被 编译 。 
第 9 章 将 详细 讨论 JIT 编译 ， 我 们 还 会 演示 一 些 简单 的 技术 ， 并 说 明 如 何 确保 应 用 程序 的 
重要 方法 能 成 为 JVM 进行 JIT 编译 的 目标 。 


4.2.5 将 性 能 测试 当 作 软件 开发 生命 周期 的 一 部 分 


有 些 公 司 和 团队 喜欢 把 性 能 测试 看 作 偶尔 的 、 一 次 性 的 活动 。 然 而 ， 有 经 验 的 团队 往往 会 
持续 进行 性 能 测试 ， 特 别 是 会 把 性 能 回归 测试 当 作 软 件 开发 生命 周期 (SDLC) 中 不 可 或 
缺 的 一 部 分 。 






























































这 需要 开发 人 员 和 基础 架构 团队 之 间 的 协作 ， 以 控制 在 任何 特定 时 间 内 性 能 测试 环境 中 要 
出 现 的 代码 版 本 。 如 果 没 有 专门 的 测试 环境 ， 那 么 这 几乎 是 不 可 能 实现 的 。 


在 讨论 了 一 些 最 常见 的 性 能 测试 的 最 佳 实践 之 后 ， 现 在 让 我 们 把 注意 力 转 到 团队 可 能 陷入 
的 陷阱 和 反 模式 上 。 


4.3 性 能 反 模 式 


反 模 式 是 指 我 们 在 软件 项 目 或 团队 中 不 希望 出 现 , 但 在 大 量 项 目 中 又 可 以 看 到 的 行为 。 反 
模式 的 频繁 出 现 ， 使 得 人 们 有 了 这 样 的 结论 或 怀疑 : 某 些 六 在 因素 要 为 产生 了 我 们 不 希望 
出 现 的 行为 人 负责。 有些 反 模式 乍 一 看 似乎 是 合理 的 ， 其 不 好 的 方面 并 不 明显 。 有 些 则 是 不 
良 的 项 目 实践 随 着 时 间 的 推移 慢 慢 累积 的 结果 。 


在 某 些 情 况 下 ， 这 些 行为 可 能 是 由 于 社会 或 团队 的 限制 、 常 见 管理 技术 的 滥用 或 者 只 是 人 
类 (开发 人 员 ) 的 本 性 导致 的 。 通 过 对 这 些 不 希望 出 现 的 特性 进行 分 类 和 归 类 ， 我 们 就 可 
以 开发 出 一 种 “模式 语言 ”来 讨论 它们 ， 并 希望 将 其 从 项 目 中 消除 。 

应 该 始终 将 性 能 调 优 视 为 一 个 非常 客观 的 过 程 ， 并 在 计划 阶段 的 早期 就 设 定 精确 的 目标 。 
但 是 这 说 起 来 容易 做 起 来 难 ， 因 为 当 一 个 团队 面临 压力 时 ， 或 者 在 合理 的 情况 下 都 不 能 
常 运作 时 ， 很 容易 就 半途 而 废 了 。 

很 多 读者 遇 到 过 这 样 的 情况 : 在 一 个 新 的 客户 端 将 要 上 线 ， 或 者 一 个 新 的 特性 就 要 发 布 
时 意外 出 现 了 服务 中 断 。 如 果 幸 运 的 话 ， 中 断 会 出 现在 用 户 验收 测试 (user acceptance 
testing，UAT) 阶段 ， 但 不 幸 的 是 ， 它 经 常 出 现在 生产 环境 中 。 这 时 团队 就 要 手忙脚乱 地 
寻找 引发 瓶颈 的 问题 并 加 以 修复 。 导 致 这 样 的 结果 通常 是 因为 没有 进行 性 能 测试 ， 或 者 团 
队 的 “专家 ”假设 了 某 个 条 件 ， 但 是 这 个 条 件 消 失 了 。 

与 遵循 了 良好 的 性 能 测试 实践 并 进行 了 开放 、 理 性 的 对 话 的 团队 相 比 ， 以 这 种 方式 工作 的 
团队 更 容易 成 为 反 模 式 的 牺牲 品 。 就 像 许 多 开发 问题 一 样 ， 往 往 是 人 为 因素 ， 比 如 沟通 问 
题 ， 而 不 是 任何 技术 方面 的 原因 导致 应 用 程序 出 现 问题 。 

Carey Flichel 在 一 篇 名 为 “Why Developers Keep Making Bad Technology Choices” 的 博客 文 
章 中 提供 了 一 种 有 趣 的 分 类 ， 文 中 特别 指出 了 导致 开发 人 员 做 出 错误 选择 的 5 大 原因 ， 接 
下 来 我 们 依次 看 一 下 。 


4.3.1 厌倦 

大 多 数 开发 人 员 有 过 在 某 个 角色 中 感到 厌倦 的 经 历 ， 对 一 些 人 来 说 ， 这 种 情况 并 不 会 持续 
很 长 时 间 ， 因 为 他 们 会 在 公司 或 其 他 地 方 寻求 新 的 挑战 或 角色 。 但 是 ， 公 司 里 可 能 没有 其 
他 的 机 会 ， 换 个 地 方 可 能 也 没有 。 

很 多 读者 可 能 遇 到 过 这 样 的 开发 人 员 ， 他 们 能 够 克服 困难 ， 甚 至 可 能 积极 寻求 更 轻松 的 
生活 。 然 而 ， 感 到 厌倦 的 开发 人 员 可 能 会 以 多 种 方式 给 项 目 带 来 损害 。 例 如 ， 他 们 可 能 
























































































































































注 2: 由 William J. Brown、Raphael C. Malvo、Hays W. McCormick II 和 Thomas J. Malbray 合 著 的 《 反 模 式 : 
危机 中 软件 、 架 构 和 项 目的 重 构 》 一 书 普及 了 这 一 术语 ， 此 书 已 由 人 民 邮 电 出 版 社 出 版 。 
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会 引入 不 必要 的 代码 复杂 性 ， 比 如 直接 在 代码 中 写 一 个 排序 算法 ， 而 这 本 来 使 用 简单 的 
Collections.sort() 就 够 了 。 他 们 也 可 能 会 使 用 未 知 的 或 不 适合 当前 场景 的 技术 来 构建 组 件 ， 
只 是 希望 有 个 机 会 用 这 些 技术 ， 以 此 来 解决 他 们 的 厌倦 感 。 这 又 会 导致 出 现下 面 的 问题 。 


4.3.2 填充 简历 

偶尔 ， 技 术 的 过 度 使 用 并 不 是 因为 厌倦 ， 而 是 因为 开发 人 员 想 找到 一 个 机 会 ， 在 简历 上 增 
加 使 用 某 项 技术 的 经 验 。 在 这 种 情况 下 ， 开 发 人 员 会 积极 尝试 提高 自己 的 潜在 薪资 和 市 场 
兖 争 力 ， 因 为 他 们 即将 重新 进入 就 业 市 场 。 在 一 个 运作 良好 的 团队 内 部 ,很 多 人 不 太 可 能 
靠 这 个 侥 季 成 功 ， 不 过 项 目 确实 可 能 会 因为 这 个 原因 而 进入 不 必要 的 路 径 。 

由 于 开发 人 员 的 厌倦 ， 或 为 了 填充 简历 而 增加 了 一 项 不 必要 的 技术 ， 甚 影响 可 能 是 次 远 而 
持久 的 ， 在 原来 的 开发 人 员 另 谋 高 就 后 还 会 持续 数 年 。 


4.3.3” 同 们 压力 

在 做 出 选择 时 ， 如 果 关 注 点 没有 得 到 表达 或 讨论 ， 那 所 做 出 的 技术 决策 往往 是 最 糟糕 的 。 
问题 有 可 能 通过 几 种 方式 表现 出 来 。 比 如 ， 也 许 某 个 初级 开发 人 员 不 想 在 团队 中 的 高 级 成 
员 面 前 犯错 (“负担 症候 群 ”)， 或 者 某 个 开发 人 员 担 心 遇 到 对 某 个 特定 主题 不 了 解 的 情况 。 
另 一 种 特别 有 害 的 同 傍 压 力 来 自 存 在 竞争 关系 的 团队 ， 大 家 都 希望 表现 出 更 高 的 开发 速 
度 ， 因 此 会 在 没有 充分 探讨 所 有 后 果 的 情况 下 就 仓促 做 出 关键 决定 。 


4.3.4 缺乏 理解 


因为 没有 了 解 当 前 工具 的 全 部 功能 ， 所 以 开发 人 员 可 能 会 寻求 引入 新 的 工具 来 帮助 解决 问 
题 。 使 用 适合 执行 某 个 具体 任务 的 新 的 、 令 人 兴奋 的 技术 组 件 往往 很 有 诱惑 力 。 然 而 ， 引 
入 更 多 技术 复杂 性 也 必须 萎 虑 与 当前 工具 的 实际 功能 相 平衡 。 

例如 ，Hibernate 有 时 被 看 作 简 化 领域 对 象 和 数据 库 之 间 转 换 的 解决 方案 。 如 果 团 队 对 
Hibernate 的 理解 相当 有 限 ， 那 么 开发 人 员 可 能 会 基于 在 另 一 个 项 目 中 看 过 的 Hibernate 的 
使 用 情形 而 对 其 适用 性 做 出 假设 。 

缺乏 理解 会 导致 Hibernate 的 用 法 过 度 复杂 ， 甚 至 导致 无 法 恢复 的 生产 环境 中 断 。 相 比 之 
下 ， 使 用 简单 的 JDBC 调用 来 重 写 整个 数据 层 ， 可 以 让 开发 人 员 停留 在 熟悉 的 领域 中 。 本 
书 的 一 位 作者 曾经 讲授 过 一 门 Hibernate 课程 ， 课 上 有 位 代表 就 遇 到 了 完全 一 样 的 情况 。 
他 试图 学 习 足 够 多 的 Hibernate 知识 ， 看 看 是 否 能 让 应 用 程序 从 中 断 中 恢复 过 来 ， 但 最 终 
不 得 不 用 一 个 周末 的 时 间 把 Hibernate 去 掉 了 ， 这 可 不 是 值得 羡 莫 的 事 。 


4.3.5 ”被 错误 理解 的 问题 /不 存在 的 问题 

开发 人 员 可 能 经 常会 使 用 某 种 技术 来 解决 革 个 特定 的 问题 ， 但 是 对 问题 空间 本 身 并 没有 进 
行 充分 研究 。 如 果 没 有 测量 获得 的 性 能 值 ， 那 就 几乎 不 可 能 理解 特定 解决 方案 是 否 成 功 。 
通常 ， 整 理 这 些 性 能 指标 有 助 于 更 好 地 理解 问题 。 

为 了 避免 出 现 反 模 式 ， 要 确保 关于 技术 问题 的 交流 对 团队 的 所 有 参与 者 公开 ， 并 鼓励 大 家 
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踊跃 参与 ， 这 非常 重要 。 在 事情 不 清楚 的 地 方 ， 收 集 事实 证 据 和 研究 原型 可 以 帮助 指导 团 
队 做 出 决策 。 一 项 技术 可 能 看 起 来 很 有 吸引 力 ， 但 是 如 果 原 型 不 符合 要 求 ， 那 么 团队 也 可 
以 做 出 更 明知 的 决策 。 


4.4 ”性 能 反 模式 目 录 


本 市 将 介绍 一 个 简短 的 性 能 反 模式 目录 。 这 份 清单 绝 不 是 详尽 无 遗 的 ， 无 疑 还 有 更 多 的 反 
模式 有 待 发 现 。 


4.4.1 被 热门 技术 分 心 
1. 描述 
最 新 或 最 酷 的 技术 往往 是 第 一 个 要 调 优 的 目标 ， 因 为 探索 较 新 技术 的 工作 原理 可 能 比 挖掘 
遗留 代码 更 令 人 兴奋 ， 也 有 可 能 是 伴随 新 技术 而 来 的 代码 写 得 更 好 ， 更 容易 维护 。 这 两 个 
事实 都 促使 开发 人 员 关 注 应 用 程序 中 较 新 的 组 件 。 
2. 评论 示例 
“这 是 初期 故障 ， 我 们 需要 弄 清 真相 。 
3. 现实 
。 这 通 稍 只 是 瞎 猜 ， 而 不 是 对 应 用 程序 进行 有 针对 性 的 调 优 或 测量 。 
。 开发 人 员 可 能 还 没有 完全 理解 新 技术 ， 并 且 只 会 胡乱 修改 ， 而 不 是 检查 文档 一 一 这 实际 
上 会 导致 出 现 其 他 问题 。 
。 在 使 用 新 技术 的 情况 下 ， 网 上 的 例子 往往 是 针对 小 数据 集 或 样本 数据 集 的 ， 并 没有 讨论 
如 何 扩 展 到 企业 规模 的 良好 实践 。 
4. 讨论 
在 新 成 立 的 或 经 验 不 足 的 团队 中 ， 这 种 反 模 式 很 常见 。 他 们 急于 证 明 自 己 ， 或 者 是 为 了 避 
免 被 他 们 所 认为 的 遗留 系统 所 束缚 。 他 们 往往 是 较 新 的 、“ 较 热 ” 的 技术 的 拥护 者 ， 而 巧 
合 的 是 ， 这 些 技 术 恰 恰 是 可 以 在 任何 新 职位 上 带 来 薪资 提升 的 技术 。 
因此 ， 人 合乎 逻辑 的 下 意识 结论 是 ， 任 何 性 能 问题 都 应 该 先 看 一 看 所 采用 的 新 技术 。 毕 竟 ， 
它 没有 被 正确 地 理解 ， 所 以 换 一 种 角度 来 看 会 有 帮助 ， 对 吗 ? 
5; 解决 方法 
通过 测量 来 确定 瓶 肛 的 真正 位 置 。 
。 确保 围绕 新 组 件 有 足够 的 日 志 记 录 。 
。 不 能 只 看 简化 的 演示 ， 还 要 看 最 佳 实践 。 
。 确保 团队 了 解 新 技术 ， 并 在 整个 团队 中 建立 最 佳 的 实践 标准 。 


4.4.2 被 简单 分 心 
1. 描述 
队 首先 里 准 的 是 系统 中 最 简单 的 部 分 ， 而 不 是 对 应 用 程序 进行 整体 剖析 ， 客 观 地 寻找 其 
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中 的 痛 点 。 系 统 中 可 能 有 些 部 分 会 被 认为 “相当 专业 ”， 只 有 最 初 编写 它们 的 人 才能 编辑 。 
2. 评论 示例 
“ 先 从 我 们 理解 的 部 分 入 手 吧 。” 
“这 部 分 是 John 写 的， 他 正在 休假 。 还 是 等 他 回来 再 看 看 性 能 吧 。” 

3. 现实 
。 原始 开发 人 员 理 解 如 何 调 优 系统 中 他 们 编写 的 那 部 分 (也 可 能 是 只 了 解 自己 写 的 那 部 分 )。 

对 于 不 同 的 系统 组 件 ， 由 于 没有 进行 知识 共享 或 结对 编程 ， 从 而 导致 形成 了 单一 领域 的 

专家 。 
4. 讨论 
“被 简单 分 心 ”和 “被 热门 技术 分 心 ”是 对 称 出 现 的 ， 这 种 反 模 式 通常 出 现在 一 个 比较 成 
熟 的 团队 中 ， 团 队 可 能 更 习惯 于 维护 或 维持 运转 的 角色 。 如 果 应 用 程序 最 近 融 入 了 新 技 
术 , 或 者 要 与 新 技术 对 接 ， 那 他 们 可 能 会 感到 长 慢 ， 或 者 不 想 与 新 系统 打交道 。 
在 这 种 情况 下 ， 开 发 人 员 可 能 更 愿意 只 剖析 系统 中 他 们 熟悉 的 部 分 ， 希 望 能 够 在 不 走出 其 
舒适 区 的 情况 下 达到 预期 目标 。 
特别 值得 注意 的 是 ， 我 们 刚 介 绍 的 这 两 种 反 模 式 都 是 对 未 知事 物 的 反应 。 在 “被 热门 技术 
分 心 ” 这 一 反 模式 中 ， 这 表现 为 开发 人 员 (或 团队 ) 渴求 学 习 更 多 知识 并 获得 优势 一 一 本 
质 上 是 一 种 进取 策略 。 相 比 之 下 , “被 简单 分 心 ” 则 是 一 种 防御 性 的 反应 ， 它 表现 为 开发 
人 员 (或 团队 ) 喜欢 熟悉 的 事物 ， 而 不 想 接触 具有 潜在 威胁 的 新 技术 。 
5. 解决 方法 
。 通过 测量 来 确定 瓶颈 的 真正 位 置 。 
。 如 果 问 题 出 现在 一 个 不 熟悉 的 组 件 中 ， 就 向 领域 专家 寻求 帮助 。 
。 确保 开发 人 员 了 解 系统 的 所 有 组 件 。 


4.4.3 性 能 调 优 天 才 

1. 描述 

管理 层 相 信和 好 莱 坞 电影 中 独行 天 才 般 的 墨客 形象 ， 所 以 雇用 了 某 个 符合 这 种 刻板 印象 的 人 ， 
希望 他 能 凭借 其 过 人 的 性 能 调 优 技能 ， 在 公司 里 来 回 走 几 圈 就 可 以 解决 所 有 的 性 能 问题 。 
确实 有 真正 的 性 能 调 优 专家 和 公司 ， 但 是 他 们 中 的 大 部 分 人 会 同意 任何 问题 
都 少不了 测量 和 研究 。 不 太 可 能 会 有 一 套 方案 能 适合 某 种 特定 技术 的 所 有 应 

用 情况 。 








































































































2. 评论 示例 
“我 肯定 知道 问题 出 在 哪里 了 ……… » 
3. 现实 
。 被 认为 是 魔法 师 或 超级 英雄 的 人 唯一 可 能 会 做 的 事情 就 是 穿 些 奇 装 异 服 。 





4. 讨论 

对 于 团队 中 那些 认为 自己 还 设 有 好 到 可 以 解决 性 能 问题 的 开发 人 员 而 言 ， 这 种 反 模 式 会 导 
致 他 们 产生 玻 离 感 。 这 很 令 人 担忧 ， 因 为 在 很 多 情况 下 ， 只 需要 他 们 进行 一 小 部 分 剖析 制 
导 优 化 就 可 以 带 来 良好 的 性 能 提升 (参见 第 13 章 ) 。 

这 并 不 是 说 没有 专家 可 以 在 特定 技术 上 提供 帮助 ， 但 认为 有 一 个 独行 天 才 从 一 开始 就 能 
解 所 有 性 能 问题 ， 这 种 想法 很 苑 雇 。 许 多 作为 性 能 专家 的 技术 人 员 本 身 也 是 擅长 测量 并 基 
于 这 些 测量 来 解决 问题 的 专家 。 

如 果 团 队 中 有 超级 英雄 类 型 的 专家 ， 但 是 他 们 不 愿意 分 享 知 识 ， 或 不 愿意 分 享 他 们 为 解决 
某 个 特定 问题 所 采用 的 方法 ， 那 么 认为 他 们 可 以 解决 任何 性 能 问题 可 能 会 适得其反 。 

5. 解决 方法 

。 通过 测量 来 确定 瓶颈 的 真正 位 置 。 









































。 确保 团队 中 雇用 的 任何 专家 都 愿意 分 享 并 成 为 团队 的 一 分 子 。 
4.4.4 按照 坊间 传说 调 优 
1. 描述 


当 某 个 团队 成 员 急 于 为 生产 中 的 性 能 问题 找到 解决 方案 时 ， 他 在 网 上 发 现 了 一 个 “神奇 ” 
的 配置 参数 。 在 没有 测试 这 个 参数 的 情况 下 ， 团 队 将 其 应 用 到 生产 中 ， 因 为 它 一 定 会 带 来 
改进 ， 网 上 就 是 这 么 说 的 …… 
2. 评论 示例 
“我 在 Stack Overflow 上 发 现 了 这 些 很 有 用 的 技巧 。 这 改变 了 一 切 。 
3. 现实 
因为 开发 人 员 并 不 了 解 这 个 性 能 技巧 的 上 下 文 和 依据 ， 所 以 真正 的 影响 是 未 知 的 。 
它 可 能 在 那个 特定 的 系统 中 起 了 作用 ， 但 这 并 不 意味 着 这 种 改变 在 另 一 个 系统 中 也 会 有 
好 处 。 在 现实 中 ， 它 可 能 会 让 事情 变 得 更 糟 。 
4. 讨论 
所 谓 性 能 技巧 ， 就 是 某 个 已 知 问题 的 解决 方案 (或 为 其 寻找 解决 方案 )。 性 能 技巧 也 有 其 
“保质 期 ”， 通 常会 随 着 时 间 的 推移 而 变 差 。 比 如 可 能 某 个 解决 方案 就 使 现在 使 用 的 技巧 在 
后 来 的 软件 或 平台 版 本 中 失效 了 。 
糟糕 的 性 能 建议 的 一 个 来 源 是 管理 手册 ， 其 中 包含 的 一 般 性 建议 往往 缺乏 上 下 文 。 如 果 厂 
商 被 起 诉 ， 那 律师 经 常会 坚持 用 这 种 模糊 的 建议 和 “推荐 的 配置 ”作为 辩护 的 额外 防线 。 
Java 的 性 能 与 上 下 文 有 关 ， 甚 中 有 大 量 的 影响 因素 。 如 果 把 这 个 上 下 文 剥 离 掉 ， 那 么 由 于 
执行 环境 的 复杂 性 ， 我 们 就 几乎 无 法 对 剩 下 的 东西 进行 研究 了 。 


Java 平台 也 在 不 断 地 演进 ， 这 意味 着 在 一 个 Java 版 本 中 提供 的 性 能 解决 方案 
的 参数 ， 在 另 一 个 版 本 中 可 能 会 无 效 。 

































































性 能 测试 模式 与 反 模 式 | 57 


例如 ， 用 于 控制 垃圾 收集 算法 的 开关 在 不 同 版 本 之 间 经 常 发 生变 化 。 在 旧版 本 (Java 7 或 

Java 6) 的 虚拟 机 中 可 以 工作 的 东西 可 能 在 当前 版 本 (Java 8) 中 无 法 使 用 。 甚 至 有 一 些 在 

Java 7 中 合法 且 有 效 的 开关 ， 在 即将 到 来 的 Java 9 中 会 导致 虚拟 机 无 法 启动 。 

配置 可 能 只 是 更 改 了 一 两 个 字符 ， 但 如 果 不 仔细 管理 ， 则 会 对 生产 环境 产生 重大 影响 。 

5. 解决 方法 

。 对 于 会 给 系统 的 最 重要 方面 造成 直接 影响 的 技术 ， 只 应 用 其 中 经 过 良好 测试 并 充分 理解 
的 技术 。 

。 在 用 户 验 收 测 试 阶 段 寻找 和 尝试 参数 , 但 是 对 于 任何 修改 , 重要 的 是 证 明 并 描述 其 好 处 。 

。 与 其 他 开发 人 员 、 运 维 人 员 或 DevOps 团队 一 起 审查 和 讨论 配置 。 


4.4.5 把 责任 归咎 给 驴 


1. 描写 
某 些 组 件 总 是 会 被 当成 问题 所 在 ， 即 使 它们 与 问题 膏 无 关系 。 


例如 ， 本 书 的 作者 之 一 曾 在 用 户 验收 测试 阶段 遇 到 一 次 大 规模 中 断 故 障 ， 而 此 时 正 是 上 线 
的 前 一 天 。 代 码 中 的 某 个 路 径 导 致 中 心 数据 库 表 的 一 个 表 被 锁定 了 。 也 就 是 说 ， 在 代码 
中 发 生 了 一 个 错误 ， 锁 没有 得 到 释放 ， 而 是 被 保留 了 下 来 ， 使 得 应 用 程序 的 其 他 部 分 无 
法 使 用 ， 直 到 完全 重启 。 因 为 数据 访问 层 用 的 是 Hibernate， 所 以 大 家 马上 把 问题 归 和 从 于 
Hibernate 了 。 然 而 在 这 个 案例 中 ， 问 题 的 罪魁 祸首 并 非 Hibernate， 而 是 一 个 用 于 处 理 超 
时 异常 的 空 catch 块 在 这 里 没有 清理 数据 库 连 接 。 开 发 人 员 花 了 一 整 天 的 时 间 才 停止 责怪 
Hibernate， 然 后 真正 地 审视 自己 的 代码 ， 并 最 终 找 到 了 真正 的 bug。 


2. 评论 示例 
“总 是 JMS/Hibernate/A_N_OTHER _LIB 的 问题 。” 



















































































3. 现实 
。 没有 进行 充分 的 分 析 就 得 出 这 一 结论 。 
。 经 常 被 怀疑 的 对 象 成 为 调查 的 唯一 目标 。 
团队 不 愿意 进行 更 大 范围 的 研究 来 确定 真正 的 原因 。 
4. 讨论 
这 种 反 模式 往往 会 通过 管理 人 员 或 业务 人 员 表 现 出 来 ， 因 为 在 很 多 情况 下 ， 他 们 对 技术 栈 
并 没有 充分 的 了 解 ， 而 且 存 在 认 知 偏差 ， 所 以 会 按照 模式 匹配 的 思路 来 工作 。 不 过 技术 人 
员 也 未 能 幸免 于 此 。 


如 有 果 对 经 常 被 归咎 的 代码 库 或 类 库 之 外 的 其 他 库 知 之 甚 少 ， 那 技术 人 员 往 往 也 会 成 为 这 一 
反 模 式 的 牺牲 品 。 与 进行 新 的 调查 研究 相 比 ， 指 出 在 应 用 程序 中 经 常 出 现 问 题 的 那 部 分 往 
往 更 容易 。 这 可 能 是 团队 疲 备 的 一 个 信号 ， 因 为 手头 有 很 多 生产 问题 。 


Hibernate 就 是 一 个 很 好 的 例子 。 在 很 多 情况 下 ，Hibernate 可 能 没有 被 正确 设置 或 使 用 。 但 
是 ， 因 为 在 过 去 看 过 该 技术 曾 执行 失败 或 无 法 执行 ， 所 以 团队 就 会 倾向 于 把 问题 归咎 于 
它 。 然 而 ， 问 题 也 很 容易 出 现在 底层 查询 、 不 恰当 索引 的 使 用 、 与 数据 库 的 物理 连接 、 对 
象 映 射 层 或 其 他 方面 。 因 此 通过 剖析 来 找 出 确切 原因 是 至 关 重 要 的 。 



























































5. 解决 方法 
。 抵制 住 急 于 得 出 结论 的 压力 。 
。 像 往常 那样 执行 分 析 。 
向 所 有 干系 人 公布 分 析 结 果 (鼓励 更 精确 地 了 解 问题 的 原因 )。 


4.4.6 忽略 大 局 
1. 描述 
大队 沉迷 于 尝试 对 应 用 程序 的 较 小 部 分 进行 修改 和 剖析 ， 但 是 没有 充分 认识 到 它们 带 来 的 
整体 影响 。 也 许 是 看 到 了 一 个 例子 ， 或 是 参考 了 公司 的 其 他 应 用 程序 ， 工 程 师 就 开始 对 
JVM 开关 微 加 调整 ， 试 图 获得 更 好 的 性 能 。 
局 队 也 可 能 会 使 用 微 基准 测试 来 剖析 应 用 程序 的 较 小 部 分 (要 想 进 行 正确 的 微 基准 测试 相 
当 困难 ， 第 5 章 将 探讨 ) 。 
2. 评论 示例 

“如 果 只 修改 这 些 设置 ， 会 有 更 好 的 性 能 。 

“如 果 能 加 快 方法 分 派 时 间 ……” 
3. 现实 
团队 没有 充分 理解 修改 带 来 的 影响 。 
。 团队 还 没有 在 新 的 JVM 设置 下 对 应 用 程序 进行 多面 剖析 。 
。 微 基准 测试 对 整体 系统 的 影响 尚 不 确定 。 
4. 讨论 
JVM 有 数 百 个 开关 。 虽 然 这 提供 了 一 个 高 度 可 配置 的 运行 时 ， 但 也 诱导 人 们 去 充分 利用 
所 有 配置 能 力 。 这 一 般 是 错误 的 ， 因 为 默认 值 和 自我 管理 能 力 通 常 已 经 足够 了 。 有 些 开关 
还 会 以 意 想 不 到 的 方式 相互 组 合 ， 这 使 得 盲目 地 修改 更 加 危险 。 即 使 是 同一 公司 的 应 用 程 
序 ， 也 可 能 会 以 完全 不 同 的 方式 进行 运 维和 配置 ， 所 以 花 时 间 尝 试 一 下 推荐 的 设置 是 很 重 
要 的 。 
性 能 调 优 是 一 项 统计 学 活动 ， 它 依赖 于 非常 具体 的 执行 上 下 文 。 这 意味 着 与 较 小 的 系统 相 
比 ， 较 大 的 系统 通常 更 容易 进行 基准 测试 ， 因 为 对 于 较 大 的 系统 来 说 ， 大 数 定律 有 助 于 工 
程 师 校正 平台 对 个 体 事件 的 扭曲 。 


相 比 之 下 ， 越 是 专注 于 系统 的 单一 方面 ， 就 越 难 把 构成 平台 的 复杂 环境 的 独立 子 系统 (如 
多 线程 、 垃 圾 收集 、 调 度 以 及 JIT 编译 ) 拆 解 出 来 (至 少 在 Java/C# 的 情况 下 是 这 样 )。 这 
是 极 难 做 到 的 ， 并 且 处 理 数据 统计 非常 敏感 ， 往 往 不 是 软件 工程 师 们 在 此 过 程 中 所 能 掌握 
的 技能 。 因 此 很 容易 产生 这 样 的 状况 ， 即 工程 师 认 为 虽然 他 们 正在 对 系统 的 某 个 方面 做 基 
准 测 试 ， 但 是 产生 的 数字 不 能 精确 表示 系统 的 行为 。 

再 加 上 人 类 的 偏见 ， 可 能 会 看 到 一 些 根本 不 存在 的 模式 。 我 们 会 看 到 这 样 的 景象 ， 即 一 个 
性 能 工程 师 被 错误 的 统计 或 差劲 的 控制 诱导 了 ， 他 强烈 坚持 某 个 性 能 基准 测试 或 效果 ， 但 
是 他 的 同事 无 法 复 现 。 
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这 里 还 有 几 点 需要 注意 。 首 先 ， 如 果 没 有 一 个 完全 模拟 生产 环境 的 用 户 验收 测试 环境 ， 就 
很 难 评估 优化 的 效果 。 其 次 ， 如 果 某 个 优化 只 有 在 应 用 程序 面 对 高 度 压力 的 情况 下 才 有 效 
果 ， 在 一 般 情 况 下 反而 会 伤害 性 能 ， 那 它 是 没有 意义 的 一 一 但 是 要 想 获得 在 一 般 情况 下 非 
常 典型 、 又 能 在 负载 之 下 提供 有 意义 的 测试 结果 的 数据 集 非 常 困难 。 

5. 解决 方法 

在 对 线 上 的 开关 进行 任何 改动 之 前 ， 需 要 做 以 下 事情 。 

。 在 生产 中 进行 测量 。 

。 在 用 户 验 收 测试 环境 中 每 次 改动 一 个 开关 。 

。 确保 用 户 验收 测试 环境 与 生产 环境 具有 相同 的 压力 点 。 

。 确保 有 能 够 代表 生产 系统 中 的 正常 负载 的 测试 数据 。 

。 在 用 户 验 收 测试 环境 中 测试 变化 。 

。 在 用 户 验 收 测试 环境 中 重新 测试 。 

。 找 人 重新 检查 你 的 推理 。 
。 和 他 们 一 起 讨论 你 的 结论 。 


4.4.7 ”用户 验收 测试 环境 就 是 我 的 计算 机 
1. 描述 
用 户 验 收 测 试 环 境 往往 与 生产 环境 有 很 大 的 不 同 ， 但 是 我 们 对 这 种 不 同 并 不 总 是 能 够 预测 
和 完全 理解 。 开 发 人 员 有 过 在 低 功 率 的 台式 计算 机 上 为 高 功率 的 生产 服务 器 编写 代码 的 经 
验 。 不 过 ， 开 发 人 员 用 的 计算 机 比 生产 中 部 署 的 小 型 服务 器 强大 的 这 种 情形 也 变 得 越 来 越 
常见 了 。 拥 有 低 功率 的 生产 环境 通常 很 容易 ， 因 为 可 以 通过 虚拟 化 的 方式 让 每 个 开发 人 员 
都 有 一 个 这 样 的 环境 。 但 拥有 高 功率 的 生产 环境 就 比较 困难 了 ， 与 开发 人 员 的 机 器 相 比 ， 
它们 通常 拥有 更 多 的 核心 、 内 存 和 高 效 的 IO。 
2. 评论 示例 

“和 生产 环境 完全 一 致 的 用 户 验 收 测试 环境 成 本 太 高 了 。” 



























































3. 现实 
。 环境 差异 造成 的 服务 中 断 所 带 来 的 损失 几乎 总 是 比 买 几 台 机 器 的 成 本 大 。 
4. 讨论 


“用 户 验 收 测试 环境 就 是 我 的 计算 机 ”， 这 种 反 模式 源 于 一 种 与 我 们 之 前 所 见 并 不 相同 的 认 
知 偏差 。 这 种 偏差 坚信 有 个 用 户 验收 测试 环境 总 比 完全 没有 好 。 遗 憾 的 是 ， 所 抱 的 这 种 希 
望 完全 没有 理解 企业 环境 的 复杂 性 。 要 想 做 出 任何 有 意义 的 推断 ， 用 户 验 收 测试 环境 必须 
和 生产 环境 类 似 。 

在 现代 的 自 适应 环境 中 ， 运 行 时 子 系统 会 充分 利用 现 有 资源 。 如 果 这 些 资 源 与 目标 部 署 环 
绕 大 相 径 庭 ， 那 么 运行 时 子 系统 会 在 不 同情 况 下 做 出 不 同 的 决策 ， 这 就 使 我 们 对 其 怀 有 和 希 
望 的 推理 全 无 用 处 了 。 

5. 解决 方法 

。 追踪 服务 中 断 带 来 的 损失 以 及 与 客户 流失 相关 的 机 会 成 本 。 





























。 购买 一 个 与 生产 环境 相同 的 用 户 验收 测试 环境 。 
。 在 大 多 数 情况 下 ， 前 者 的 成 本 远 超 后 者 ， 有 时 管理 者 需要 做 出 正确 的 选择 。 


4.4.8 ”类似 生 产 环境 的 数据 很 难 表示 
1. 描述 
这 种 反 模式 也 称 为 DataLite 反 模 式 ， 已 与 人 们 在 试图 表示 类 似 于 生产 环 培 的 数据 时 过 到 的 
一 些 常 见 陷阱 有 关 。 以 一 家 大 型 银行 的 交易 处 理 系 统 为 例 ， 它 负责 处 理 已 被 预订 但 尚 需 结 
算 的 期 货 和 期 权 交易 。 这 样 的 系统 通常 一 天 会 处 理 数 百 万 条 信息 。 现 在 考虑 以 下 用 户 验收 
测试 策略 以 及 潜在 的 问题 。 
。 为 了 便于 测试 ,我们 的 机 制 是 从 一 天 的 消息 中 选择 一 小 部 分 ， 然 后 将 其 放 到 用 户 验 收 测 
试 系 统 中 运行 。 
这 种 方法 无 法 捕捉 到 系统 可 能 会 遇 到 的 类 似 突 发 行为 。 它 也 可 能 无 法 捕捉 到 在 另 一 个 交 
易 市 场 开盘 前 ， 在 某 个 特定 市 场 上 进行 更 多 期 货 交 易 所 造成 的 预 热 。 


。 为 了 使 场景 更 容易 测试 ， 交 易 和 期 权 被 更 新 为 只 使 用 简单 的 值 进行 断言 判断 。 


这 并 设 有 提供 具有 “真实 性 ”的 生产 数据 。 假 设 我 们 正在 使 用 某 个 外 部 库 或 系统 进行 期 
权 定价 ， 要 想 借助 测试 数据 集 来 确定 这 种 生产 依赖 是 否 会 引起 性 能 问题 是 不 可 能 的 ， 因 
为 我 们 正在 执行 计算 的 范围 只 是 一 个 生产 数据 的 简化 子 集 。 


。 为 了 简化 ， 所 有 的 值 都 要 一 次 性 推送 到 系统 中 。 
在 用 户 验收 测试 中 经 常 这 样 做 ,但 是 这 会 错过 以 不 同 速率 投 送 数据 时 可 能 发 生 的 关键 预 
热 和 优化 。 
在 用 户 验 收 测 试 中 ， 大 多 数 时 候 会 通过 简化 测试 数据 集 来 让 测试 更 容易 。 然 而 ， 这 样 的 结 
果 很 少 有 用 。 
2. 评论 示例 
“让 生产 环境 和 用 户 验收 测试 环境 保持 同步 太 难 了 。 
“操控 数据 使 其 符合 系统 的 期 望 太 难 了 。” 
“出 于 安全 方面 的 考虑 ， 生 产 数据 是 受 保护 的 。 开 发 人 员 不 应 该 访问 。” 
3. 现实 
为 了 得 到 精确 的 结果 ， 用 户 验收 测试 环境 中 的 数据 必须 与 生产 环境 中 的 数据 类 似 。 如 果 出 
于 安全 原因 数据 无 法 使 用 ， 那 么 就 应 该 对 数据 进行 混淆 ， 从 而 使 其 仍 可 以 用 于 有 意义 的 测 
试 。 另 一 个 选择 是 对 用 户 验 收 测试 环境 进行 分 区 ， 虽 然 这 样 开发 人 员 仍 然 看 不 到 数据 ， 但 
可 以 看 到 性 能 测试 的 输出 ， 从 而 能 够 发 现 问题 。 
4. 讨论 
这 种 反 模 式 也 落 入 了 “有 总 比 没有 好 ”的 陷阱 。 其 想法 是 ， 即 使 是 用 过 时 的 、 不 具 代 表 性 
的 数据 来 测试 ， 也 比 不 进行 测试 要 好 。 
如 前 所 述 ， 这 是 一 个 极其 危险 的 推理 思路 。 在 系统 测试 中 ， 虽 然 对 某 些 东西 (即使 它 和 
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生产 数据 完全 不 一 样 ) 进行 大 规模 测试 可 以 发 现 缺 陷 和 遗漏 ， 但 它 提供 的 是 一 种 虚假 的 
当 系 统 上 线 后 ， 使 用 模式 并 不 符合 通过 用 户 验收 测试 数据 锁定 过 的 预期 模式 ， 这 时 开发 和 
运 维 团 队 很 可 能 会 发 现 ， 他 们 还 在 为 在 用 户 验收 测试 环境 中 取得 的 胜利 而 沾沾自喜 ， 对 即 
将 随 大 规模 生产 发 布 而 来 的 臣 怖 后 果 毫 无 准备 。 
5. 解决 方法 

和 咨询 数据 领域 的 专家 ， 并 投入 资源 来 将 生产 数据 迁移 到 用 户 验 收 测试 环境 ， 必 要 时 可 以 
对 数据 进行 混淆 。 
。 对 预计 有 大 量 客户 或 交易 的 发 布 做 好 充足 准备 。 


4.5 ” 认 知 偏差 与 性 能 测试 
即使 面 对 一 个 可 以 借鉴 过 去 经 验 和 类 似 情 况 的 问题 ， 人 类 也 可 能 无 法 迅速 形成 准确 的 意见 。 


认 知 偏差 是 一 种 会 导致 人 脑 得 出 错误 结论 的 心理 效应 。 问 题 的 重点 在 于 表现 
出 这 种 偏差 的 人 通常 意识 不 到 这 一 点 ， 而 且 可 能 认为 自己 是 理性 的 。 





















































本 章 所 探讨 的 许多 反 模 式 或 多 或 少 就 是 由 一 种 或 多 种 认 知 偏差 造成 的 ， 而 这 些 偏差 又 是 基 
于 某 种 无 意识 的 假设 产生 的 。 

例如 ， 对 于 “把 责任 归咎 给 驴 ” 反 模式 ， 如 果 一 个 组 件 最 近 造 成 了 几 次 故障 ， 那 么 团队 可 
能 会 偏向 于 认为 任何 新 的 性 能 问题 都 是 由 这 个 组 件 导 致 的 。 在 分 析 过 的 数据 中 ， 如 果 有 任 
何 数 据 能 够 证 实 这 个 组 件 就 是 导致 性 能 问题 的 罪魁 祸 首 ， 那 我 们 就 会 认为 这 样 的 数据 更 为 
可 信 。 这 种 反 模式 结合 了 被 称 为 确认 偏差 和 近 因 偏差 (一 种 假设 最 近 已 经 发 生 的 事情 还 会 
继续 发 生 的 倾向 ) 的 各 个 方面 。 
Java 中 的 单个 组 件 在 不 同 的 应 用 程序 中 会 有 不 同 的 表现 ， 这 取决 于 它 在 运行 
会 被 如 何 优化 。 为 了 消除 任何 预先 存在 的 偏差 将 应 用 程序 作为 一 个 整体 
来 看 待 是 很 重要 的 。 



















































































有 些 偏差 是 互补 的 ， 有 些 是 对 称 的 。 例 如 ， 有 些 开 发 人 员 可 能 会 有 这 样 的 偏差 ， 即 认为 
问题 根本 与 软件 无 关 ， 它 肯定 出 在 软件 所 运行 的 基础 设施 上 。 这 在 “对 我 来 说 很 有 效 ” 
(works for me) 反 模式 中 很 常见 ， 其 特征 是 认同 诸如 “这 在 用 户 验 收 测 试 环境 中 很 好 用 ， 
所 以 一 定 是 生产 套件 出 了 问题 ”这 样 的 观点 。 与 之 相反 的 认 知 偏差 则 认为 每 个 问题 一 定 是 
由 软件 引起 的 ， 因 为 那 是 开发 人 员 了 解 并 能 直接 影响 系统 的 部 分 。 


4.5.1 还 原 论 思 维 


这 种 认 知 偏差 基于 一 种 分 析 方法 ， 它 坚持 认为 ， 如 果 能 把 一 个 系统 分 成 足够 小 的 若干 部 
分 ， 就 可 以 通过 理解 它 的 组 成 部 分 来 理解 它 。 理 解 每 个 部 分 意味 着 减少 了 做 出 错误 判断 的 
概率 。 






































以 上 观点 的 问题 在 于 该 分 析 方 法 无 法 应 用 于 复杂 的 系统 。 有 用 的 软件 系统 〈 或 物理 系统 ) 
几乎 总 是 会 出 现 突 发 行为 ， 而 整体 又 要 大 于 各 个 部 分 的 简单 累加 。 


4.5.2 ”确认 偏差 
当 涉 及 性 能 测试 或 试图 主观 地 看 待 一 个 应 用 程序 时 ， 确 认 偏 差 会 导致 严重 问题 。 当 选择 了 
一 个 糟糕 的 测试 集 或 对 测试 结果 没有 进行 统计 分 析 时 ， 就 会 无 意识 地 引入 确认 偏差 。 确 认 
偏差 很 难 克 服 ， 因 为 通常 有 很 强 的 动机 或 情绪 因素 在 起 作用 (比如 团队 中 有 人 试图 证 明基 
个 观点 )。 


考虑 一 个 反 模 式 ， 比 如 “被 热门 技术 分 心 ”， 有 个 团队 成 员 希 望 引 入 最 新 、 最 好 的 NoSQL 数 
据 库 。 他 们 针对 与 生产 数据 并 不 相似 的 数据 运行 了 一 些 测 试 ， 因 为 就 评估 目的 而 言 ， 要 表示 
完整 的 模式 实在 太 复杂 了 。 结 果 证 明 ， 在 某 个 测试 集 上 ，NoSQL 数据 库 在 他 们 本 地 机 器 上 
的 访问 时 间 非 常 出 色 。 开 发 人 员 会 将 这 一 结果 告诉 每 个 人 ， 并 着 手 进 行 全面 实 施 。 这 里 有 几 
个 反 模 式 在 起 作用 ， 所 有 这 些 都 会 导致 在 新 的 库 栈 中 出 现 新 的 、 未 经 验证 的 假设 。 




































































摆弄 开关 
“按照 坊间 传说 调 优 ”和 “忽略 大 局 ”( 滥 用 微 基准 测试 ) 都 是 反 模 式 的 例子 ， 这 些 反 
模式 至 少 在 一 定 程 度 上 是 由 还 原 论 思维 和 确认 偏差 造成 的 。 一 个 臭名 昭著 的 例子 是 
“按照 坊间 传说 调 优 ”的 一 个 子 类 型 ， 也 就 是 所 谓 的 “摆弄 开关 ”。 
这 种 反 模 式 产 生 的 原因 是 ， 虽然 虚 拟 机 尝试 选择 适合 于 所 检测 到 的 硬件 的 设置 ， 但 在 某 
些 情况 下 ， 工程师 需要 手动 设置 一 些 标 志 来 调 优 代码 的 性 能 。 这 本 身 并 无 害处 ， 但 是 由 
于 JVM 拥有 很 多 命令 行 开 关 ， 具 有 高 度 可 配置 性 ， 因 此 它 也 隐藏 着 一 个 认 知 陷阱 。 
可 以 使 用 如 下 开关 来 查看 虚拟 机 标志 的 列表 : 


-XX:+PrintFlagsFinal 


截至 Java 8u131， 我 们 会 得 到 700 多 个 可 能 的 开关 。 不 仅 如 此 ， 还 有 一 些 额 外 的 调 优 
选项 ， 只 有 虚拟 机 在 诊断 模式 下 运行 的 时 候 才 能 使 用 。 要 查看 这 些 选项 ， 请 添加 这 个 
开关 : 

-XX:+UnlockDiagnosticVMOptions 


这 样 大 约 可 以 解锁 另外 100 个 开关 。 要 想 正确 推断 出 应 用 这 些 开 关 的 各 种 可 能 组 合 情 
况 会 产生 的 聚合 效果 ， 已 经 非 人 力所能及 了 。 此 外 ， 在 大 多 数 情 况 下 ， 实 验 观 测 表 明 
改变 开关 值 的 影响 很 小 通常 小 于 开发 人 员 的 预期 。 














4.5.3 ”战争 的 迷雾 〈 行 动 偏差 ) 
这 种 偏差 通常 会 在 服务 中 断 或 系统 性 能 不 如 预期 的 情况 下 表现 出 来 。 最 常见 的 原因 包括 ; 


更 改 了 系统 运行 所 基于 的 基础 设施 ， 可 能 没有 收 到 通知 或 没有 意识 到 会 产生 影响 ， 
更 改 了 系统 所 依赖 的 库 ， 
在 一 年 中 业务 最 忙碌 的 一 天 出 现 了 一 个 奇怪 的 bug 或 竞争 条 件 。 
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在 一 个 维护 良好 的 应 用 程序 中 ， 如 果 有 足够 的 日 志 记录 和 监控 信息 ， 那 它们 应 该 会 生成 清 
晰 的 错误 信息 ， 从 而 引导 团队 找 出 问题 的 根源 。 


然而 ， 太 多 的 应 用 程序 没有 测试 过 失败 场景 ， 也 缺乏 适当 的 日 志 记录 。 在 这 种 情况 下 ， 即 
使 是 有 经 验 的 工程 师 也 会 掉 入 这样 的 陷阱 ， 即 认为 他 们 自己 在 工作 ， 以 期 解决 服务 中 断 问 
题 ， 他 们 错 把 行动 当成 了 速度 一 一 “战争 的 迷雾 ”降临 了 。 

在 这 个 时 候 ， 如 果 参 与 者 对 问题 的 处 理 方法 没有 系统 化 的 思考 ， 那 么 本 章 所 讨论 的 许多 人 
为 因素 就 会 粉墨登场 了 。 例 如 ， 像 “把 责任 归咎 给 驴 ” 这 样 的 反 模 式 就 会 打 断 全 面 调查 ， 
把 产品 团队 引 向 特定 的 调查 路 径 一 一 这 往往 会 忽略 大 局 。 同 样 ， 团 队 可 能 会 将 系统 分 解 成 
若干 个 组 成 部 分 ， 并 在 没有 先 确定 问题 真正 存在 于 哪个 子 系统 的 情况 下 ， 就 从 低级 的 代码 
可 起。 

过 去 ， 使 用 系统 化 的 方法 来 处 理 服务 中 断 场景 ， 把 无 须 修补 的 东西 留 到 事后 调查 时 再 处 
理 ， 总 是 有 回报 的 。 然 而 ， 在 人 类 情感 方面 ， 想 把 紧张 的 情绪 从 情境 中 抽 离 出 来 非常 困 
难 ， 尤 其 是 面 对 服 务 中 断 的 时 候 。 


4.5.4 风险 偏差 

人 类 天 生 厌 恶 风 险 ， 抗拒 改 变 ， 这 主要 是 因为 人 们 见 过 不 少 改变 可 能 出 错 的 例子 ， 因 此 他 
们 会 尽量 避免 这 种 风险 。 但 是 当 人 们 发 现 接受 一 些小 的 、 经 过 计算 的 风险 有 可 能 推动 产品 
的 发 展 时 ， 他 们 会 感到 非常 诅 形 。 我 们 可 以 通过 一 组 健壮 的 单元 测试 和 产品 回归 测试 来 显 
著 降 低 风 险 偏差 。 但 是 ， 如 果 其 中 任何 一 个 测试 都 不 值得 信赖 ， 那 么 改变 就 会 变 得 非常 困 
竺 ， 风 险 因素 也 无 法 控制 。 

这 种 偏差 往往 表现 为 未 能 从 应 用 程序 问题 (其 至 是 服务 中 断 ) 中 吸取 教训 并 采取 适当 的 缓 
解 措施 。 


4.5.5 ” 埃 尔 斯 伯 格 悖 论 


为 了 说 明 人 类 在 理解 概率 方面 有 多 糟糕 ,下面 来 看 看 埃 尔 斯 伯 格 悖 论 。 这 个 悖 论 的 意思 是 ， 
与 “未 知 的 未 知 ”(unlmown unknowns) 相 比 ， 人 类 更 喜欢 “已 知 的 未 知 ”(known unknowns)。 


埃 尔 斯 伯 格 悖 论 的 一 般 形 式 是 一 个 简单 的 概率 思维 实验 。 在 一 个 缸 里 有 90 个 不 同 颜色 的 
球 ， 已 知 有 30 个 蓝 色 球 ， 其 余 的 是 红色 球 或 绿色 球 。 红 色 球 和 绿色 球 的 确切 分 布 是 未 知 
的 ， 但 在 整个 过 程 中 ， 缸 、 球 以 及 由 此 产生 的 胜率 是 固定 的 。 


悖 论 的 第 一 步 是 选择 下 注 。 玩 家 可 以 选择 两 种 投注 方式 中 的 任何 一 种 。 
A. 如 果 随 机 抽 到 的 是 蓝 色 球 ， 玩 家 将 赢得 100 美元 。 
B. 如 果 随 机 抽 到 的 是 红色 球 ， 玩 家 将 赢得 100 美元 。 


大 多 数 人 选择 A， 因 为 它 代表 的 是 已 知 的 胜率 : 中 奖 的 可 能 性 正好 是 13。 假 设 一 个 球 被 
抽出 后 会 被 放 回 同一 个 缸 里 并 重新 打 乱 顺序 ， 这 时 候 再 让 玩家 来 选 一 次 。 令 人 惊讶 的 事情 
发 生 了 ， 这 次 的 两 个 选项 如 下 。 
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C. 如 果 随 机 抽 到 的 是 蓝 色 球 或 绿色 球 ， 玩 家 将 赢得 100 美元 。 

D. 如 果 随 机 抽 到 的 是 红色 球 或 绿色 球 ， 玩 家 将 赢得 100 美元 。 

在 这 种 情况 下 ， 投 注 D 对 应 的 是 已 知 的 胜率 (2/3 的 中 奖 概率 ) ， 所 以 基本 上 每 个 人 都 会 选 
择 D。 

悖 论 是 ， 选 择 A 和 DD 的 组 合并 不 理性 。 选 择 A， 隐 含 着 对 红色 球 和 绿色 球 分 布 情况 的 看 
法 ， 即 认为 “绿色 球 比 红色 球 多 "。 因 此 ， 如 果 选 择 了 和 A， 那 么 合理 的 策略 是 选择 C 与 其 
搭配 ， 因 为 与 安全 地 选择 D 相 比 ， 选 择 C 的 胜率 更 高 。 


4.6 ”小 结 


当 评 估 性 能 结果 时 ， 一定 要 以 恰当 的 方式 处 理 数据 ， 避 免 陷入 不 科学 、 主 观 的 思考 中 。 本 
章 介绍 了 一 些 济 试 类 型 、 测 试 最 佳 实践 以 及 性 能 分 析 中 伴生 的 反 模 式 。 
下 一 章 将 研究 底层 的 性 能 测量 手段 、 微 基准 测试 的 陷阱 ， 以 及 一 些 用 于 处 理 从 JVM 中 测 
得 的 原始 结果 的 统计 技术 。 
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第 5 章 


微 基准 测试 与 统计 





本 章 将 考虑 直接 测量 Java 性 能 数字 的 具体 细节 。JVM 的 动态 特性 意味 着 性 能 数字 往往 比 
许多 开发 人 员 预 期 的 要 更 难处 理 。 因 此 ， 互 联网 上 出 现 了 许多 不 准确 或 带 有 误导 性 的 性 能 
数字 。 

本 章 的 一 个 主要 目标 是 确保 你 意识 到 这 些 可 能 的 陷阱 ， 并 且 只 生成 你 和 其 他 人 可 以 信赖 的 
性 能 数字 。 特 别 需要 注意 的 是 ， 对 小 块 Java 代码 的 测量 〈 微 基准 测试 ) 非常 微妙 且 难 以 正 
确 完 成 ， 这 也 是 本 章 将 要 探究 的 主要 内 容 ， 同 时 我 们 还 会 介绍 性 能 工程 师 应 该 如 何 正 确 使 
用 它 。 

你 不 能 糊弄 自己 ， 你 自己 恰恰 是 最 容易 被 蒙骗 的 人 。 









































Richard Feynman 

接 下 来 ， 本 章 会 介绍 如 何 使 用 微 基准 测试 工具 的 黄金 标准 : JMH。 在 考虑 过 所 有 的 警告 和 
说 明之 后 ， 如 果 你 真 的 觉得 你 的 应 用 程序 和 用 例 需 要 使 用 微 基准 测试 ， 那 么 从 现 有 的 最 可 
靠 、 最 先进 的 工具 入 手 ， 可 以 让 你 避免 很 多 众所周知 的 陷阱 。 
最 后 ， 我 们 会 再 来 谈 谈 统计 。JVM 通常 会 产生 一 些 需要 谨慎 对 待 的 性 能 数字 。 因 为 微 基准 
测试 生成 的 数字 通常 特别 灵敏 ， 所 以 需要 性 能 工程 师 用 一 定 程度 的 统计 思维 来 处 理 观察 到 的 
结果 。 本 章 最 后 几 节 将 介绍 一 些 处 理 JVM 性 能 数据 的 技术 以 及 关于 如 何 解释 数据 的 问题 。 


5.1 Java 性 能 测量 


我 们 在 1.3 节 曾 描述 过 性 能 分 析 是 几 个 不 同方 面 的 组 合体 ， 从 而 使 其 从 根本 上 说 是 一 门 实 


验 科 学 。 


也 就 是 说 ， 如 果 我 们 想 写 出 一 个 好 的 基准 测试 (或 微 基准 测试 )， 那 么 把 它 看 成 一 个 科学 
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实验 是 非常 有 帮助 的 。 

这 种 方法 让 我 们 将 基准 测试 看 成 一 个 有 输入 和 输出 的 “ 黑 盒 子 ”"， 希望 从 中 收集 能 帮助 推 

测 结 果 的 数据 。 然 而 ， 我 们 必须 谨慎 行事 ， 因 为 仅仅 收集 数据 是 不 够 的 ， 我 们 还 需要 确保 

不 会 被 数据 欺骗 。 

基准 测试 数字 本 身 并 不 重要 ， 重 要 的 是 你 从 这 些 数 据 中 推导 出 了 什么 样 的 模型 。 

一 一 Aleksey Shipilev 

因此 ， 我 们 的 理想 目标 是 保证 基准 测试 的 公平 性 ， 也 就 是 说 ， 要 尽 可 能 只 改变 系统 的 一 个 

方面 ， 并 确保 基准 测试 中 的 其 他 任何 外 部 因素 都 是 可 控 的 。 在 理想 的 世界 中 ， 系 统 的 其 他 

可 能 改变 的 方面 在 多 个 测试 之 间 是 完全 不 变 的 ， 但 在 实践 中 我 们 很 少 如 此 幸运 。 

即使 在 实践 中 无 法 实现 科学 意义 上 纯粹 公平 的 测试 这 一 目标 ， 我 们 的 基准 测 

试 也 至 少 要 保证 可 重复 性 ， 因 为 这 是 任何 实验 结果 的 基础 。 





























编写 Java 平台 基准 测试 的 一 个 核心 问题 是 Java 运行 时 的 复杂 性 。 本 书 有 相当 大 的 篇 幅 就 
是 用 来 阐释 JVM 对 开发 人 员 的 代码 所 做 的 自动 优化 。 当 把 基准 测试 看 作 这 些 优化 背景 下 
的 科学 测试 时 ， 我 们 的 选择 就 很 有 限 了 。 

也 就 是 说 ， 要 完全 理解 并 说 明 这 些 优化 的 精确 影响 几乎 是 不 可 能 的 。 应 用 程序 代码 的 “ 真 
实 ” 性 能 的 精确 模型 很 难 建立 ， 而 且 其 适用 性 也 往往 有 限 。 

换 句 话 说， 我 们 无 法 将 执行 中 的 Java 代码 与 JIT 编译 器 、 内 存 管理 以 及 Java 运行 时 提供 









































的 其 他 子 系统 真正 分 开 。 我 们 也 不 能 忽略 运行 测试 时 当前 的 操作 系统 、 硬 件 或 运行 时 条 件 
(比如 负载 ) 的 影响 。 
没有 谁 是 一 座 阪 岛 。 
John Donne 














处 理 规模 较 大 (整个 系统 或 子 系统 ) 的 问题 更 容易 消除 这 些 影 响 。 相 反 ， 当 处 理 规 模 较 小 
的 问题 或 进行 微 基准 测试 时 ， 真 正 将 应 用 程序 代码 与 运行 时 的 后 台 行 为 隔离 开 来 会 更 加 困 
难 。 正 如 本 华 将 要 讨论 的 ， 这 就 是 微 基 准 测 试 如 此 困难 的 根本 原因 。 

下 面 来 考虑 一 个 看 似 非常 简单 的 例子 。 有 了 段 代 码 要 对 100 000 个 数字 组 成 的 列表 进行 排序 ， 
我 们 对 它 做 基准 测试 ， 希 望 从 尝试 创建 一 个 真正 公平 的 测试 的 角度 进行 检验 。 


public class ClassicSort { 














private static final int N = 1_000; 
private static final int I = 150_000; 
private static final List<Integer> testData = new ArrayList<>(); 


public static void main(String[] args) { 
Random randomGenerator = new Random(); 
for (int i = 0; i < N; i++) { 
testData.add(randomGenerator .nextInt(Integer .MAX_VALUE) ); 
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} 


System.out.println("Testing Sort Algorithm"); 
double startTime = System.nanoTime(); 


for (int i = 0; i < I; i++) { 
List<Integer> copy = new ArrayList<Integer>(testData); 
Collections.sort(copy); 


} 


double endTime = System.nanoTime(); 
double timepPerOperation = ((endTime - startTime) / (1_000_000_Q00L * I)); 
System.out.println("Result: " + (1 / timePerOperation) + " op/s"); 


} 


该 基准 测试 创建 了 一 个 由 随机 整 型 数组 成 的 数组 ， 一 旦 创建 完成 ， 就 会 记录 基准 测试 的 开 
始 时 间 。 然 后 ， 基 准 测试 会 执行 0 复制 模板 数组 ， 再 对 数据 进行 排序 。 一 旦 运行 完 I 
次 ， 持 续 时 间 就 会 被 转换 为 秒 ， 然 后 除 以 进 代 次 数 ， 从 而 得 到 每 次 操作 所 花 的 时 间 。 


Se es nt a i ek 考虑 一 下 排序 
在 生产 中 的 服务 器 应 用 程序 中 运行 的 情况 。 它 很 可 能 已 经 运行 了 数 小 时 ， 甚 至 数 天 。 然 而 
我 们 知道 JVM 包含 一 个 JIT 编译 器 ， 它 会 Re 代码 。 这 
个 编译 器 在 方法 运行 了 一 定 次 数 后 才 会 生效 。 

因此 ， 我 们 正在 进行 的 测试 并 不 能 代表 它 在 生产 中 的 表现 。 在 我 们 尝试 做 基准 测试 的 时 
医 ，JVM 会 花 时 间 优化 这 个 调用 。 使 用 几 个 JVM 标志 来 运行 该 排序 ， 可 以 看 到 以 下 这 个 
效果 3 


java -Xms2048m -Xmx2048m -XX:+PrintCompilation ClassicSort 


-Xms 和 -Xmx 选项 用 于 控制 堆 的 大 小 ， 本 例 中 堆 的 大 小 被 固定 为 2 GB。PrintCompilation 
的 作用 是 ， 每 当 一 个 方法 被 编译 (或 者 发 生 了 其 他 编译 事件 )，JVM 就 会 输出 一 行 日 志 。 
下 面 是 输出 的 一 个 片段 : 


Testing Sort ALgorithm 
73 29 3 java.util.ArrayList::ensureExplicitCapacity (26 bytes) 












































73 31 3 java.Lang.Integer::vaLueOf (32 bytes) 

74 32 3 java.util.concurrent.atomic.AtomicLong::get (5 bytes) 

74 33 3 java.util.concurrent.atomic.AtomicLong::compareAndSet (13 bytes) 
74 35 3 java.util.Random::next (47 bytes) 

74 36 3 java.lang.Integer::compareTo (9 bytes) 

74 38 3 java.lang.Integer::compare (20 bytes) 

74 37 3 java.lang.Integer::compareTo (12 bytes) 

74 39 4 java.lang.Integer::compareTo (9 bytes) 

75 36 3 java.lang.Integer::compareTo (9 bytes) made not entrant 

76 40 3 java.util.ComparableTimSort::binarySort (223 bytes) 

77 41 3 java.util.ComparableTimSort::mergeLo (656 bytes) 

79 42 3 java.util.ComparableTimSort::countRunAndMakeAscending (123 bytes) 
79 45 3 java.util.ComparableTimSort::gallopRight (327 bytes) 

80 43 3 java.util.ComparableTimSort::pushRun (31 bytes) 





JIT 编译 器 会 全 力 以 赴 地 优化 调用 层次 的 不 同 部 分 ， 以 提高 代码 的 效率 。 这 意味 着 基准 测 
试 的 性 能 会 随 着 抓 取 计时 信息 持续 的 时 间 而 变化 ， 而 且 由 于 我 们 不 经 意 间 在 实验 中 留 下 了 
一 个 不 受 控制 的 变量 ， 因 此 需要 一 个 预 热 阶段 ， 让 JVM 在 我 们 抓 取 计 时 信息 之 前 稳定 下 
来 。 通 常 的 做 法 是 ， 先 将 要 进行 基准 测试 的 代码 运行 若干 次 ， 但 不 抓 取 计时 信息 。 

我 们 需要 考虑 的 另 一 个 外 部 因素 是 垃圾 收集 。 理 想 情况 下 ， 我 们 希望 垃圾 收集 在 计时 过 程 
中 不 要 运行 ， 而 且 希 望 通过 设置 使 其 行为 标准 化 。 但 是 由 于 垃圾 收集 的 不 确定 性 ， 这 是 难 
以 控制 的 。 


我 们 可 以 做 的 一 个 改进 是 确保 在 垃圾 收集 可 能 运行 的 时 候 不 去 获取 计时 信息 。 我 们 可 以 要 
求 系统 运行 一 次 垃圾 收集 并 稍 等 片刻 ， 但 系统 可 能 会 决定 忽略 这 个 调用 。 就 目前 而 言 ， 这 
个 基准 测试 中 的 计时 太 过 宽泛 了 ， 所 以 我 们 需要 更 多 关于 可 能 发 生 的 垃圾 收集 事件 的 细 市 。 


不 仅 如 此 ， 除 了 选择 计时 点 之 外 ， 我 们 还 希望 选择 一 个 合理 的 迭代 次 数 ， 而 要 通过 试验 和 
改进 找 出 这 个 数 可 能 有 点 困难 。 垃 圾 收集 的 作用 可 以 通过 另 一 个 虚拟 机 标志 来 查看 (关于 
日 志 格 式 的 详细 内 容 ， 参 见 第 7 章 ) : 


java -Xms2048m -Xmx2048m -verbose:gc ClassicSort 
它 将 产生 类 似 下 面 这 样 的 垃圾 收集 日 志和 条目 : 


Testing Sort Algorithm 

[GC (ALLocation Failure) 524800K->632K(2010112K) ，0.0009038 secs] 
[GC (ALLocation Failure) 525432K->672K(2010112K) ，0.0008671 secs] 
Result: 9838.556465303362 op/s 


基准 测试 中 另 一 个 常见 错误 是 ， 我 们 正在 测试 的 代码 所 生成 的 结果 实际 上 并 没有 被 用 到 。 
在 上 面 的 基准 测试 中 ，copy 实际 上 是 死 代 码 ， 所 以 有 可 能 被 JIT 编译 器 识别 为 死 代码 路 径 
并 优化 掉 ， 而 事实 上 这 正 是 要 进行 基准 测试 的 地 方 。 


进一步 要 考虑 的 是 ， 即 使 是 平均 值 ， 查 看 单个 计时 结果 也 无 法 全 面 了 解 基准 测试 的 性 能 。 
里 想 情 况 下， 我 们 希望 捕捉 到 误差 幅度 (margin of error) ， 以 了 解 所 收集 值 的 可 靠 性 。 如 
果 误 差 幅 度 很 高 ， 则 它 可 能 指向 某 个 不 可 探 的 变量 ， 或 者 确实 是 我 们 写 的 代码 性 能 不 高 。 
不 管 是 哪 种 情况 ， 如 果 不 捕捉 到 误差 幅度 ， 就 无 法 确定 是 否 存 在 问题 。 

即使 是 对 一 个 非常 简单 的 排序 进行 基准 测试 也 可 能 有 一 些 陷阱 ， 这 就 意味 着 这 个 基准 测试 
就 要 被 否决 。 然 而 ， 随 着 复杂 性 的 增加 ， 事 情 就 会 迅速 变 得 越 来 越 精 。 考 虑 一 个 评估 多 线 
程 代码 的 基准 测试 。 多 线程 代码 极 难 进行 基准 测试 ， 因 为 它 需要 确保 从 基准 测试 开始 到 获 
得 特定 的 精确 结果 的 过 程 中 ， 所 有 线程 都 要 挂 着 等 待 直到 彼此 完全 启动 。 如 果 做 不 到 这 一 
点 ， 误 差 幅度 就 会 很 高 。 

在 对 并 发 代码 进行 基准 测试 时 ， 还 要 考虑 硬件 情况 ， 而 且 不 仅仅 是 硬件 配置 ， 比 如 要 考虑 
电源 管理 是 否 会 生效 ， 或 者 机 器 上 是 否 有 其 他 资源 和 争 用 情况 。 


想 要 把 基准 测试 代码 写 正 确 是 非常 复杂 的 ， 而 且 需 要 考虑 很 多 因素 。 作 为 开发 人 员 ， 我 们 
最 关心 的 应 该 是 所 要 剖析 的 代码 ， 而 不 是 刚才 强调 的 所 有 问题 。 上 述 所 有 问题 共同 导致 了 
这 样 一 种 情况 : 除非 你 是 JVM 专家 ， 否 则 很 容易 漏 掉 一 些 东西 并 得 到 一 个 错误 的 基准 测 
试 结果 。 
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有 两 种 方法 可 以 解决 这 个 问题 。 其 一 是 只 对 整个 系统 进行 基准 测试 。 在 这 种 情况 下 ， 底 层 
的 数字 通常 会 被 忽略 掉 ， 而 不 会 被 收集 起 来 。 对 多 次 独立 运行 的 结果 取 平 均值 可 以 获得 有 
意义 的 大 规模 结果 ， 大 多 数 开发 人 员 需 要 的 往往 就 是 这 种 方法 。 

其 二 是 试图 通过 一 个 通用 的 框架 来 解决 上 述 的 许多 问题 ， 以 便 对 相关 底层 结果 进行 有 意义 
的 对 比 。 理 想 的 框架 可 以 消除 刚刚 讨论 到 的 一 些 压 力 。 这 样 的 工具 必须 要 紧 跟 OpenJDK 
的 主线 开发 ， 以 确保 新 的 优化 和 其 他 外 部 控制 变量 都 能 得 到 管理 。 

幸运 的 是 ， 这 样 的 工具 确实 存在 ， 它 也 是 下 一 节 的 主题 。 然 而 ， 对 于 大 多 数 开发 人 员 来 
说 ， 可 以 纯粹 将 其 当 作 参考 资料 ， 直 接 跳 到 5.3 市 继续 学 习 。 


5.2 JMH 


接 下 来 我 们 会 用 一 个 具有 警示 性 的 例子 来 说 明 为 什么 简单 设计 的 微 基准 测试 很 容易 出 错 以 
及 为 什么 出 错 。 从 中 我 们 也 获得 了 一 些 启发 ， 有 助 于 我 们 判断 自己 的 用 例 是 否 适 合 微 基 准 
测试 ， 同 时 得 到 的 结论 是 ， 该 技术 并 不 适合 绝 大 多 数 的 应 用 程序 。 


5.2.1 不 是 万 不 得 已 ， 不 要 做 微 基准 测试 〈 一 个 真实 的 故事 ) 
在 办 公 室 待 了 漫长 的 一 天 之 后 ， 本 书 的 一 位 作者 在 正 要 离开 大 楼 时 看 到 一 位 女 同 事 仍 在 伏 
案 工作 ， 紧 盯 着 一 个 Java 方法 。 当 时 他 也 没 多 想 ， 就 去 赶 火车 回 家 了 。 然 而 两 天 之 后 ， 类 
似 的 场景 又 出 现 了 ， 那 位 同事 的 计算 机 屏幕 上 还 是 一 个 非常 相似 的 方法 ， 她 的 脸 上 满 是 疲 
惫 和 厌烦 。 很 明显 需要 进行 更 深入 地 调查 了 。 

她 正在 维护 的 应 用 程序 有 一 个 很 明显 的 性 能 问题 。 尽 管 使 用 了 较 新 版 本 的 知名 库 ， 但 新 版 
本 的 应 用 程序 性 能 还 不 如 团队 想 要 替换 掉 的 旧版 本 。 她 花 了 一 些 时 间 删 除 部 分 代码 并 写 了 
一 些小 的 基准 测试 ， 试 图 找到 问题 所 在 。 

说 不 出 为 什么 ， 就 感觉 这 种 方法 不 对 ， 就 像 大 海 檬 针 一 样 。 他 们 又 一 起 尝试 了 男 一 种 方 
法 ， 并 很 快 确认 该 应 用 程序 的 CPU 利用 率 已 经 达到 了 最 大 值 。 因 为 知道 这 种 用 例 适合 用 
执行 剖析 器 〈 关 于 何 时 使 用 剖析 器 的 完整 细节 ， 参 见 第 13 章 ) ， 所 以 我 们 用 了 10 分 钟 对 
应 用 程序 进行 剖析 ， 然 后 就 找到 了 真正 的 原因 。 有 果然， 问题 根本 不 在 应 用 程序 代码 中 ， 而 
是 在 团队 正在 使 用 的 一 个 新 的 基础 设施 库 中 。 

这 个 故事 说 明了 一 种 处 理 Java 性 能 问题 的 方法 ， 不 幸 的 是 ， 这 种 情况 太 常 见 了 。 开 发 人 员 
可 能 会 一 度 认为 一 定 是 自己 代码 的 问题 ， 而 错过 了 大 局 。 


开发 人 员 往 往 希 望 通过 仔细 观察 小 规模 的 代码 构造 来 开始 寻找 问题 ， 但 在 这 
个 层面 上 进行 基准 测试 极为 困难 ， 而 且 有 一 些 危险 的 “陷阱 ”。 























































































































5.2.2 ”关于 何 时 使 用 微 基准 测试 的 启发 


正如 在 第 2 章 中 曾 简单 讨论 的 ，Java 平台 的 动态 特性 以 及 垃圾 收集 和 激进 的 JIT 优化 这 样 
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的 特性 ， 导 和 致 我 们 很 难 直 接 找 到 出 现 性 能 问题 的 原因 。 更 糟糕 的 是 ， 性 能 数字 往往 取决 于 
应 用 程序 被 测量 时 的 确切 运行 时 情况 。 


分 析 整 个 Java 应 用 程序 的 真实 性 能 总 是 比分 析 一 小 段 Java 代码 更 容易 。 

















然而 ， 有 时 我 们 需要 直接 分 析 单个 方法 甚至 单个 代码 片段 的 性 能 。 不 过 这 种 分 析 也 不 能 掉 
以 轻 心 。 一 般 来 说 ， 底 层 分 析 或 微 基准 测试 主要 有 以 下 3 种 应 用 场景。 
。 你 正在 开发 应 用 广泛 的 通用 库 代码 。 
你 是 OpenJDK 或 其 他 Java 平台 实现 的 开发 人 员 。 
。 你 正在 开发 对 延迟 极为 敏感 的 代码 (比如 用 于 低 延迟 交易 )。 
这 3 种 应 用 场景 背后 的 原理 略 有 不 同 。 
通用 型 库 (顾名思义 ) 对 其 使 用 环境 所 知 甚 少 。 这 类 库 的 示例 包括 Google Guava 或 
Eclipse Collections (最 初 由 高 盛 贡 献 )。 它 们 需要 在 非常 广泛 的 用 例 (从 包含 几 十 个 元 素 的 
数据 集 到 亿 级 数据 集 ) 中 提供 可 接受 的 或 更 好 的 性 能 。 
由 于 应 用 非常 广泛 ， 通 用 库 有 时 不 得 不 使 用 微 基准 测试 来 进行 较 传统 的 性 能 和 容量 测试 。 
平台 开发 人 员 是 微 基准 测试 的 主要 用 户 群体 ，OpenJDK 团队 创建 的 JMH 工具 主要 就 是 供 
他 们 自己 使 用 的 。 不 过 事实 证 明 ， 这 个 工具 对 更 广泛 的 性 能 专家 群体 也 是 很 有 用 的 。 
最 后 ， 有 一 些 从 事 Java 性 能 前 沿 工作 的 开发 人 员 可 能 希望 使 用 微 基 准 测试 来 选择 最 适合 其 
应 用 程序 和 极端 用 例 的 算法 和 技术 。 这 将 包括 低 延 迟 的 金融 交易 以 及 少量 的 其 他 案例 。 
如 果 你 是 OpenJDK 或 通用 库 的 开发 人 员 ， 那 么 是 否 进行 微 基准 测试 就 已 经 很 明显 了 ， 但 
可 能 有 些 开发 人 员 还 是 会 迷惑 ， 他 们 的 性 能 需求 是 不 是 应 该 考虑 微 基准 测试 。 
微 基准 测试 的 可 怕 之 处 在 于 ， 它 们 总 是 会 给 出 一 个 数字 ， 即 使 这 个 数字 毫 无 意 
义 。 它 们 确实 测量 了 某 个 事物 ， 只 是 我 们 并 不 确定 测量 的 是 什么 。 


























Brian Goetz 


一 般 来 说 ， 只 有 最 极端 的 应 用 程序 才 应 该 使 用 微 基准 测试 。 虽 然 没 有 明确 的 规则 ， 但 除非 

你 的 应 用 程序 符合 以 下 大 部 分 或 全 部 标准 ， 否 则 你 不 太 可 能 从 应 用 程序 的 微 基准 测试 中 获 

得 真正 的 好 处 。 

。 你 的 总 代码 路 径 执 行 时 间 一 定 要 小 于 1 毫秒 ， 并 且 很 可 能 要 小 于 100 微 秒 。 

。 你 应 该 已 经 测量 过 你 的 内 存 〈 对 象 ) 分 配 率 〈 详 见 第 6 章 和 第 7 章 ), 它 应 该 小 于 1 MB/s， 
最 好 是 非常 接近 于 零 。 

。 你 应 该 使 用 了 接近 100% 的 可 用 CPU， 而 且 系 统 利 用 率 应 该 一 直 比 较 低 〈 低 于 10% ) 。 

。 你 应 该 已 经 使 用 了 执行 剖析 器 (参见 第 13 章 ) 来 了 解 正在 消耗 CPU 的 方法 的 分 布 情况 。 
分 布 中 最 多 应 该 有 2~3 种 主要 方法 。 

综 上 所 述 ， 微 基准 测试 显然 是 一 种 高 级 且 很 少 使 用 的 技术 。 然 而 ， 了 解 它 所 反映 出 的 一 些 
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基本 理论 和 复杂 性 是 很 有 帮助 的 ， 因 为 这 能 让 我 们 更 好 地 了 解 处 理 Java 平台 上 不 太极 端的 
应 用 程序 的 性 能 也 是 有 很 多 困难 的 。 
任何 没有 进行 反 汇编 和 代码 生成 分 析 的 Nano 级 别 基 准 测试 都 是 不 可 信 的 。 言 尽 
村 北 ， 











Aleksey Shipllev 

本 市 剩余 篇 幅 会 更 深入 地 探讨 微 基 准 测 试 ， 并 介绍 一 些 工具 以 及 开发 人 员 必 须 考 虑 的 事 
项 ， 以 便 生成 可 靠 的 结果 ， 而 不 会 导致 错误 的 结论 。 不 管 它 是 否 与 你 当前 的 项 目 直接 相 
关 ， 这 些 信息 对 性 能 分 析 人 员 来 说 都 是 很 有 用 的 背景 知识 。 








5.2.3 JMH 框 架 
JMH 是 为 解决 我 们 刚才 讨论 的 问题 而 设计 的 框架 。 

JMH 是 一 个 Java 工具， 用 于 构建 、 运 行 和 分 析 用 Java 和 其 他 以 JVM 为 目标 平 

台 的 语言 编写 nano/micro/milli/macro 基准 测试 。 

一 一 OpenJDK 

过 去 已 经 有 一 些 对 简单 的 基准 测试 库 的 尝试 ， 其 中 Google Caliper 是 最 受 开 发 人 员 欢 迎 的 
一 个 。 然 而 ， 所 有 这 些 框架 都 有 其 挑战 ， 而 且 往 往 看 似 合理 的 设置 或 测量 代码 性 能 的 方式 
通常 会 有 一 些微 妙 的 陷阱 需要 应 对 。 特 别 是 随 着 JVM 的 不 断 演进 ， 应 用 新 的 优化 方法 时 ， 
情况 更 是 如 此 。 
JMH 在 这 方面 有 很 大 的 不 同 ， 它 就 是 由 构建 JVM 的 同一 群 工 程 师 开 发 的 。 因 此 ，JMH 的 
作者 们 知道 如 何 避免 JVM 的 每 个 版 本 中 存在 的 优化 陷阱 。 它 作为 一 个 基准 测试 工具 ， 会 
随 着 每 个 JVM 版 本 的 发 布 而 演进 ， 所 以 开发 人 员 只 需要 关注 这 个 工具 的 使 用 以 及 基准 测 
试 代码 本 身 。 
除了 一 些 已 经 强调 的 问题 外 ，JMH 还 考虑 到 了 一 些 关键 的 基准 测试 安全 设计 问题 。 
基准 测试 框架 必须 是 动态 的 ， 因 为 它 在 编译 时 不 知道 基准 测试 的 内 容 。 要 解决 这 个 问题 ， 
明显 可 以 选择 使 用 反射 来 执行 用 户 编写 的 基准 测试 。 然 而 ， 这 样 又 会 在 基准 测试 的 执行 路 
径 中 引入 另 一 个 复杂 的 JVM 子 系 统 。 相 反 ，JMH 通过 注解 处 理 从 基准 测试 中 生成 额外 的 
Java 源 代码 来 进行 操作 。 


由 于 许多 常见 的 、 基 于 注解 的 Java 框架 (如 JUnit) 使 用 反射 来 实现 其 目标 ， 
因此 使 用 一 个 处 理 程序 来 生成 额外 的 源 代码 可 能 会 让 一 些 Java 开发 人 员 有 些 


意外 。 






























































一 个 问题 是 ， 如 果 基 准 测 试 框架 调用 用 户 的 代码 以 进行 大 量 迭 代 ， 那 么 可 能 就 会 触发 循环 
优化 。 这 意味 着 运行 基准 测试 的 实际 过 程 可 能 会 影响 结果 的 可 靠 性 。 

为 了 避免 触发 循环 优化 ，JMH 会 为 基准 测试 生成 代码 ， 将 基准 测试 代码 封装 在 一 个 循环 
中 ， 并 小 心地 将 迭代 次 数 设 置 为 一 个 能 避免 优化 的 值 。 
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5.2.4 执行 基准 测试 
JMH 执行 所 涉及 的 复杂 性 对 用 户 而 言 大 部 分 是 隐藏 的 ， 而 且 使 用 Maven 来 设置 一 个 简单 
的 基准 测试 相当 直接 。 可 以 通过 执行 以 下 命令 来 设置 一 个 新 的 JMH 项 目 : 


$ mvn archetype:generate \ 
-DinteractiveMode=false \ 
-DarchetypeGroupId=org.openjdk.jmh \ 
-DarchetypeArtifactId=jmh-java-benchmark-archetype \ 
-DgroupId=org.sample \ 
-DartifactId=test \ 
-Dversion=1.0 


文 会 下 载 所 需 的 资源 ， 并 创建 一 个 用 来 放置 代码 的 存根 (stub)。 
基准 测试 使 用 了 @Benchmark 来 注解 ， 表 示 JMH 将 执行 该 方法 来 进行 基准 测试 (在 框架 执 
行 了 各 种 设置 任务 后 ) : 


public class MyBenchmark { 
@Benchmark 
public void testMethod() { 
// 代码 存根 








} 


基准 测试 的 作者 可 以 通过 配置 参数 来 控制 其 执行 ， 这 些 参数 可 以 在 命令 行 或 基准 测试 的 
main() 方法 中 设置 ， 如 下 所 示 : 


public class MyBenchmark { 














public static void main(String[] args) throws RunnerException { 
Options opt = new OptionsBuilder() 
.include(SortBenchmark.class.getSimpleName()) 
.warmupIterations(100) 
.measurementIterations(5).forks(1) 
.jvmArgs("-server", "-Xms2048m", "-Xmx2048m").build(); 


new Runner(opt).run(); 
} 
上 


命令 行 上 的 参数 会 履 盖 main() 方法 中 设置 的 任何 参数 。 

通常 情况 下 ， 基 准 测 试 都 需要 一 些 设置 ， 比 如 创建 一 个 数据 集 ， 或 者 为 一 组 用 来 比较 性 能 
的 、 正 交 的 基准 测试 集 设 置 所 需 的 条 件 。 
状态 ， 以 及 控制 状态 是 JMH 框架 所 具有 的 另 一 个 特性 。 可 以 用 estate 注解 来 定义 该 状态 ， 
并 接受 Scope 枚 举 来 定义 状态 的 可 见 范围 : Benchmark、Group 还 是 Thread。 使 用 estate 注 
解 的 对 象 在 基准 测试 的 生命 周期 内 都 是 可 达 的 ， 它 可 能 还 需要 执行 一 些 必要 的 设置 。 

多 线程 代码 也 需要 谨慎 处 理 ， 以 确保 基准 测试 不 会 因为 状态 管理 不 善 而 出 现 偏差 。 

一 般 来 说 ， 如 果 在 一 个 方法 中 执行 的 代码 没有 副作用 并 且 返 回 结果 也 没有 用 到 ， 那 JVM 
就 可 以 考虑 移 除 这 个 方法 。JMH 需要 防止 这 种 情况 的 发 生 ， 而 且 事 实 上 ， 对 于 基准 测试 的 
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作者 来 说 ， 这 种 情况 带 来 的 影响 是 非常 直接 的 。 如 果 是 单个 结果 ， 那 么 基准 测试 方法 可 以 
将 其 返回 ， 而 且 该 框架 要 确保 上 暗中 将 这 个 值 赋值 到 某 个 地 方 (黑洞 )， 这 是 框架 作者 开发 
的 一 种 机 制 ， 其 性 能 开销 可 以 忽略 不 计 。 

如 果 一 个 基准 测试 要 执行 多 个 计算 ， 那 么 将 该 方法 的 结果 组 合 起 来 并 返回 的 成 本 可 能 
会 很 高 。 在 这 种 情况 下 ， 作 者 可 能 需要 使 用 一 个 显 式 的 黑洞 ， 具体 做 法 是 创建 一 个 以 
Blackhole 为 参数 的 基准 测试 。 

Blackhole 提供 了 4 种 与 优化 相关 的 保护 ， 以 避免 这 些 优 化 影响 基准 测试 。 一 些 保护 是 阻 
止 基准 测试 因为 其 作用 范围 有 限 而 产生 的 过 度 优化 ， 其 他 一 些 是 避免 数据 存在 可 预测 的 运 
行 时 模式 ， 而 这 些 模式 在 系统 的 典型 运行 情况 下 是 不 会 出 现 的 。 这 些 保 护 是 : 

。 防止 运行 时 把 死 代 码 优化 掉 ， 

。 防止 重复 计算 被 折 双 成 常量 ， 

。 防止 伪 共 享 ， 读 写 某 个 值 会 影响 当前 的 高 速 缓 存 行 ， 

。 避免 “ 写 墙 ”(write wall)。 

性 能 中 的 墙 (wall) 这 个 术语 通常 指 的 是 资源 已 经 饮 和 并 且 事 实 上 成 了 应 用 程序 的 瓶颈 。 
如 果 命中 了 “ 写 墙 > ， 就 会 影响 高 速 缓存 ， 并 污染 用 于 写 入 的 缓冲 区 。 如 果 在 自己 的 基准 
测试 内 出 现 了 这 种 情况 ， 那 么 可 能 会 带 来 极 大 的 影响 。 

正如 Blackhole 的 JavaDoc 中 所 写 的 那样 〈 如 前 所 述 ) ， 为 了 提供 这 些 保 护 ， 你 必须 对 JIT 
编译 器 有 深入 的 了 解 才 可 能 构建 出 避免 优化 的 基准 测试 。 

让 我 们 来 看 看 Blackhole 使 用 的 两 个 consume() 方法 ， 以 了 解 JMH 使 用 的 一 些 技巧 (如果 
你 对 JMH 的 实现 方式 不 感 兴 趣 ， 可 以 跳 过 )。 下 面 是 第 一 个 方法 : 


public volatile int i1 = 1, i2 = 2; 



























































/** 
* 消耗 对 象 。 该 调用 有 一 个 副作用 ， 可 以 防止 JIT 消 除 我 们 要 依赖 的 计算 


* @param i 要 消耗 的 int 
wy 





public final void consume(int i) { 
if (Tt ss il Ls LZ2) 
// 不 应 该 发 生 
nullBait.il = i; // 隐 含 空 指针 异常 
} 
} 


重复 编写 这 段 代码 来 支持 所 有 基本 类 型 (就 是 把 int 改 为 相应 的 基本 类 型 )。 变 量 i1 和 i2 
被 声明 为 volatile， 这 意味 着 运行 时 必须 重新 计算 。 虽 然 if 语句 永远 不 可 能 为 真 ， 但 编 
译 器 必须 允许 代码 运行 。 我 们 还 要 注意 在 if 语句 中 使 用 了 按 位 与 运算 符 (8)。 这 不 仅 避 
人 免 了 额外 的 分 支 逻辑 带 来 的 问题 ， 还 带 来 了 更 一 致 的 性 能 。 


下 面 是 第 二 个 方法 : 














public int tlr = (int) System.nanoTime(); 


/** 
* 消耗 对 象 。 该 调用 有 一 个 副作用 ， 可 以 防止 JIT 消 除 我 们 要 依赖 的 计算 
* @param obj 要 消耗 的 对 象 
*/ 
public final void consume(Object obj) { 
int tlr = (this.tlr = (this.tlr * 1664525 + 1013904223)); 
if ((tlr & tlrMask) == 0) { 
// 在 测量 中 几乎 不 应 该 发 生 
this.obj1 = obj; 
this.tlrMask = (this.tlrMask << 1) + 1; 


























} 
3} 
当 处 理 对 象 时 ， 起 初 似乎 可 以 使 用 相同 的 逻辑 ， 因 为 用 户 的 对 象 也 不 会 与 Blackhole 持 有 
的 对 象 相同 。 然 而 ， 编 译 器 也 想 表 现 得 聪明 一 点 。 如 果 编 译 器 通过 逃逸 分 析 断 言 这 个 对 象 


不 会 和 其 他 对 象 等 价 ， 那 么 比较 操作 本 身 就 有 可 能 直接 被 优化 为 返回 false。 


相反 ， 对 象 只 在 极 少数 情况 才 会 执行 的 条 件 下 会 被 消耗 。 计 算出 ttr 的 值 ， 并 将 其 与 
tlrMask 进行 按 位 与 运算 ， 以 减少 6 值 出 现 的 概率 ， 但 不 会 彻底 消除 这 种 概率 。 这 样 可 以 
保证 对 象 能 在 很 大 程度 上 被 消耗 掉 ， 而 不 需要 重新 赋值 。 基 准 测 试 框架 的 代码 读 起 来 是 非 
常 有 趣 的 ， 因 为 它 与 现实 世界 中 的 Java 应 用 程序 有 很 大 的 区 别 。 事 实 上 ， 如 果 在 生产 Java 
应 用 程序 中 的 任何 地 方 发 现 了 这 样 的 代码 ， 则 很 可 能 会 解雇 负责 的 开发 人 员 。 


除了 编写 一 个 极其 精确 的 微 基准 测试 工具 之 外 ，JMH 作者 们 还 为 其 中 的 类 创建 了 令 人 印象 
深刻 的 文档 。 如 果 你 对 幕后 的 神奇 之 处 感 兴趣 ， 那 么 注释 可 以 很 好 地 说 明 这 一 点 


通过 前 面 的 信息 ， 我 们 知道 不 需要 太 多 的 工作 就 能 启动 和 运行 一 个 简单 的 基准 测试 ， 但 
JMH 也 有 一 些 相 当 高 级 的 功能 。 官 方 文档 为 每 个 特性 提供 了 示例 ， 所 有 这 些 都 值得 一 看 。 


展示 JMH 的 强大 功能 及 其 与 JVM 比较 接近 的 有 趣 特性 包括 以 下 内 容 : 

能 够 控制 编译 器 ; 

在 基准 测试 期 间 模拟 CPU 利用 水 平 。 
另 一 个 很 好 的 特性 是 使 用 Blackhole 来 实际 消耗 CPU 周期 ， 从 而 使 你 可 以 模拟 不 同 CPU 
负载 下 的 基准 测试 。 


@CompilerControl 注解 可 用 于 要 求 编译 喜 不 要 内 联 、 明 确 内 联 或 者 从 编译 中 排除 该 方法 。 如 
果 遇 到 性 能 问题 ， 而 你 又 怀疑 是 由 JVM 的 内 联 或 编译 引起 的 ， 则 下 面 这 个 注解 非常 有 用 : 


@State(Scope.Benchmark) 

@BenchmarkMode(Mode.Throughput) 

@Warmup(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS) 
@Measurement(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS) 
@OutputTimeUnit(TimeUnit.SECONDS) 

@Fork(1) 

public class SortBenchmark { 
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private static finaL int N = 1_ 000; 
private static final List<Integer> testData = new ArrayList<>(); 


@Setup 
public static final void setup() { 
Random randomGenerator = new Random(); 
for (int i = 0; i < N; i++) { 
testData.add(randomGenerator .nextInt(Integer .MAX_VALUE) ) ; 


} 

System.out.printLn("Setup Complete"); 
} 
@Benchmark 


public List<Integer> classicSort() { 
List<Integer> copy = new ArrayList<Integer>(testData); 
Collections. sort(copy); 
return copy; 


} 


@Benchmark 
public List<Integer> standardSort() { 
return testData.stream().sorted().collect(Collectors.toList()); 


} 


@Benchmark 
public List<Integer> parallelSort() { 
return testData.parallelStream().sorted().collect(Collectors. toList()); 


} 


public static void main(String[] args) throws RunnerException { 
Options opt = new OptionsBuilder() 

.include(SortBenchmark.class.getSimpleName()) 
.warmupIterations(100) 
.measurementIterations(5).forks(1) 
.jvmArgs("-server", "-Xms2048m", "-Xmx2048m") 
.addProfiLer(GCProfiLer.cLass) 
.addProfiler(StackProfiler.class) 
.build(); 


new Runner(opt).run(); 


} 


} 
运行 该 基准 测试 会 产生 如 下 输出 : 


Benchmark Mode Cnt Score Error Units 
optjava.SortBenchmark.classicSort thrpt 200 14373.039 + 111.586 ops/s 
optjava.SortBenchmark.parallelSort thrpt 200 7917.702 + 87.757 ops/s 
optjava.SortBenchmark.standardSort thrpt 200 12656.107 + 84.849 ops/s 


查看 这 个 基准 测试 ， 你 可 能 很 快 就 得 出 结论 ， 即 经 典 的 排序 方法 比 使 用 流 更 高 效 。 两 个 代 
码 运 行 都 使 用 了 一 个 数组 副本 和 一 次 排序 ， 所 以 该 基准 测试 应 该 没 问 题 。 开 发 人 员 可 能 
到 低 错误 率 和 高 否 吐 量 就 认为 这 个 基准 测试 一 定 正确 。 











但 是 让 我 们 考虑 一 下 基准 测试 可 能 未 能 准确 反映 性 能 的 一 些 原因 ， 也 就 是 要 和 弄 清 楚 它 是 否 

是 一 个 受 控 的 测试 。 首 先 我 们 看 一 下 垃圾 收集 对 classicsort 测试 的 影响 ; 
Iteration 1: 
[GC (Allocation Failure) 65496K->1480K(239104K), 0.0012473 secs] 
[GC (Allocation Failure) 63944K->1496K(237056K), 0.0013170 secs] 
10830.105 ops/s 
Iteration 2: 
[GC (Allocation Failure) 62936K->1680K(236032K) ，0.0004776 secs] 
10951.704 ops/s 


在 这 个 快照 中 ， 很 明显 大 约 每 次 友 代 都 会 发 生 一 个 垃圾 收集 周期 ， 将 其 与 下 面 这 个 并 行 排 
序 相 比 较 会 很 有 趣 : 
Iteration 1: 
[GC (ALLocation Failure) 52952K->1848K(225792K)， 
[GC (ALLocation Failure) 52024K->1848K(226816K)， 
[GC (ALLocation Failure) 51000K->1784K(223744K) ， 
[GC (ALLocation Failure) 49912K->1784K(225280K ) ， 
9526.212 ops/s 
Iteration 2: 
[GC (ALLocation Failure) 49400K->1912K(222720K ) ， 
[GC (ALLocation Failure) 49016K->1832K(223744K ) ， 
[GC (ALLocation Failure) 48424K->1864K(221696K ) ， 
[GC (ALLocation Failure) 47944K->1832K(222720K)， 
[GC (ALLocation Failure) 47400K->1864K(220672K)， 


所 以 ， 通 过 加 入 JVM 标志 来 查看 导致 这 种 意外 差异 的 原因 ， 我 们 可 以 发 现 基准 测试 中 的 
其 他 地 方正 在 引起 噪声 (在 本 例 中 为 垃圾 收集 )。 

得 出 的 结论 就 是 ， 我 们 很 容易 假设 基准 测试 代表 一 个 受 控 的 环境 ， 但 事实 可 能 更 加 复杂 。 
因为 不 可 控 的 变量 一 般 很 难 发 现 ， 所 以 即使 有 了 JMH 这 样 的 工具 ， 也 要 小 心 谨慎 。 我 们 
还 需要 注意 纠正 自己 的 确认 偏差 ， 并 确保 所 测量 的 观测 变量 能 够 真实 反映 系统 的 行为 。 


我 们 在 第 9 章 中 将 介绍 JITWatch， 它 将 提供 另 一 个 关于 JIT 编译 器 如 何 处 理 字 节 码 的 视 
图 ， 这 通常 有 助 于 我 们 深入 了 解 为 什么 为 特定 方法 生成 的 字 节 码 可 能 会 导致 基准 测试 无 法 
按 预 期 执行 。 


5.3 JVM 性 能 统计 


如 有 果 性 能 分 析 真 的 是 一 门 实验 科学 ， 那 么 我 们 自己 必然 要 处 理 结果 数据 的 分 布 。 统 计 学 家 
和 科学 家 都 知道 ， 来 自 现实 世界 的 结果 几乎 从 来 不 能 用 清晰 明显 的 信号 来 表示 。 我 们 必须 
根据 自己 的 所 见 真实 地 看 待 世界 ， 而 不 是 用 我 们 想 要 找到 的 、 过 于 理想 化 的 世界 来 面 对 它 。 


我 们 信奉 上 帝 。 其 他 人 请 用 数据 说 话 。 
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Michael Bloomberg 


所 有 的 测量 都 会 包含 一 定量 的 误差 。 下 一 市 将 介绍 Java 开发 人 员 在 进行 性 能 分 析 时 可 能 会 
遇 到 的 两 种 主要 的 误差 类 型 。 
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5.3.1 误差 类 型 
工程 师 可 能 会 遇 到 的 误差 主要 有 两 个 来 源 。 


系统 性 误差 
某 个 不 明 因 素 正 在 以 一 种 相关 的 方式 影响 可 观测 变量 的 测量 。 
随机 性 误差 


某 个 测量 误差 或 不 相关 的 因素 以 不 相关 的 方式 影响 了 结果 。 

每 种 类 型 的 误差 都 有 特定 的 词汇 。 比 如 ， 准 确 度 (accuracy) 用 来 描述 测量 中 系统 性 
误差 的 程度 ， 准 确 度 越 高 ， 系 统 性 误差 越 低 。 同 样 ， 随 机 性 误差 对 应 的 术语 是 精确 度 
(precision) ， 精 确 度 越 高 ， 随 机 性 误差 越 低 。 

图 5-1 显示 了 某 次 测量 中 两 类 误差 的 效果 。 第 一 幅 图 显示 的 是 一 群 测量 结 末 围绕 在 真实 结 
果 (目标 中 心 ) 周围 ， 这 些 测量 值 具有 很 高 的 准确 度 和 精确 度 。 第 二 幅 图 显示 的 是 有 一 个 
系统 性 影响 (或许 没有 做 好 校准 ?”) 导致 所 有 的 测量 都 偏离 目标 ， 所 以 这 些 测 量 值 精确 度 
很 高 ， 但 准确 度 很 低 。 第 三 幅 图 显示 的 是 测量 基本 对 准 了 目标 ,但 松散 地 聚集 在 中 心 附 
近 ， 所 以 精确 度 低 ， 但 准确 度 高 。 最 后 一 幅 图 显示 的 是 测量 没有 给 出 明确 的 信号 ， 所 以 精 
确 度 和 准确 度 都 不 高 。 




















图 5-1; 不 同类 型 的 误差 


1. 系统 性 误差 

例如 ,考虑 针对 一 组 发 送 和 接收 JSON 文件 的 后 端 Java Web 服务 运行 的 性 能 测试 。 当 直接 
使 用 应 用 程序 前 端 进行 负载 测试 而 出 现 问 题 时 ， 这 类 性 能 测试 就 很 常见 。 

图 5-2 是 从 Apache JMeter 负载 生成 工具 的 JP GC 扩展 包 生 成 的 。 图 中 实际 上 有 两 个 系统 
性 的 影响 在 起 作用 。 第 一 个 需要 注意 的 影响 是 在 最 上 面 的 那 条 线 (异常 的 服务 ) 中 观察 到 
的 线性 模式 ， 它 代表 着 某 些 有 限 的 服务 器 资源 在 缓慢 耗 尽 。 这 类 模式 通常 与 内 存 泄漏 有 
关 ， 或 者 是 由 于 线程 在 请 求 处 理 期 间 使 用 了 其 他 资源 而 没有 释放 ， 具 体 原因 需要 去 调查 研 
究 ， 虽 然 看 上 去 像 是 真正 的 问题 所 在 。 
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图 5-2: 系统 性 误差 





还 需要 进一步 的 分 析 来 确认 受 影响 的 资源 类 型 ， 我 们 不 能 简单 地 断定 是 内 存 
汽 漏 。 





第 二 个 需要 注意 的 影响 是 其 他 大 多 数 服务 在 180 毫秒 左右 表现 出 的 一 致 性 。 这 是 很 可 疑 
的 ， 因 为 这 些 服务 在 响应 请 求 时 所 做 的 工作 量 大 有 不 同 ， 可 是 结果 为 什么 会 如 此 一 致 呢 ? 
答案 就 是 : 虽然 被 测试 的 服务 在 英国 伦敦 部 署 ， 但 负载 测试 是 在 印度 的 孟买 进行 的 。 观 察 
到 的 响应 时 间 包 括 了 从 香 买 到 伦敦 必要 的 来 回 网 络 延迟 。 网 络 延迟 在 120~150 毫秒 的 范围 
内 ， 因 此 除了 异常 点 之 外 ， 它 占据 了 我 们 观察 到 的 绝 大 部 分 服务 时 间 。 

这 个 巨大 的 系统 性 影响 掩盖 了 实际 响应 时 间 的 差异 ， 因 为 这 些 服务 的 实际 啊 应 时 间 远 小 
于 120 毫秒 。 这 个 系统 性 误差 的 例子 并 不 代表 应 用 程序 存在 问题 ， 相 反 ， 是 测试 设置 中 
出 现 了 一 个 问题 。 好 消息 是 ， 当 在 伦敦 重新 运行 这 个 测试 时 ， 不 出 所 料 ， 这 个 误差 就 完全 
消失 了 。 

2. 随机 性 误差 

这 里 值得 一 提 的 是 随机 性 误差 的 情况 ， 尽 管 人 们 经 常 遇 到 。 
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这 里 的 讨论 是 假定 读者 熟悉 对 符合 正 态 分 布 的 测量 结果 所 采用 的 基本 统计 处 
理 方法 (均值 、 众 数 、 标 准 差 等 ) ， 不 熟悉 的 读者 可 以 查阅 基础 教科 书 ， 比 
上 Handbook of Biological Statistics。， 





3 





随机 性 误差 是 由 环境 中 未 知 或 不 可 预测 的 变化 引起 的 。 在 一 般 的 科学 应 用 中 ， 这 些 变化 可 
能 发 生 在 测量 仪器 或 环境 中 ， 但 对 于 软件 来 说 ， 因 为 我 们 假设 测量 保护 是 可 靠 的 ， 所 以 随 
机 性 误差 的 来 源 只 能 是 操作 环境 。 

人 们 通常 认为 随机 性 误差 遵循 高 斯 分 布 (又 叫 正 态 分 布 )。 图 5-3 演示 了 两 个 典型 的 例子 。 
如 果 无 论 正 负 ， 误差 相 对 于 观测 对 和 象 都 具有 同等 的 可 能 性 ， 那 么 高 斯 分 布 就 是 一 个 很 好 的 
模型 ， 但 正如 我 们 将 看 到 的 ， 该 分 布 并 不 适合 JVM。 











-4 -3 -2 -1 0 1 部 3 4 











图 5-3: 高 斯 分 布 (又 称 正 态 分 布 或 钟 形 曲 线 ) 


3. 假 相关 

关于 统计 学 ， 最 著名 的 一 个 谚语 是 “相关 性 不 代表 因果 性 ”， 也 就 是 说 ， 两 个 变量 的 行为 
相似 并 不 意味 着 它们 之 间 有 潜在 的 联系 。 

在 最 极端 的 例子 中 ， 如 果 工 作 人 员 足 够 努力 地 寻找 ， 那 么 在 完全 不 相关 的 测量 结果 之 间 也 
可 以 找到 某 种 关联 。 比 如 图 5-4 显示 出 美国 的 鸡肉 消费 与 原油 进口 总 量 有 很 好 的 相关 性 。? 

































































注 1: Handbook of Biological Statistics, 3rd ed， 作 者 是 John H. McDonald， 由 位 于 美国 马里 兰州 巴尔 的 摩 的 
Sparky House Publishing 于 2014 年 出 版 。 

注 2: 本 节 所 举 的 假 相 关 的 例子 来 自 Tyler Vigen 网 站 ， 此 处 已 经 获得 基于 创作 共用 许可 证 (Creative 
Commons License) 的 授权 允许 重复 使 用 。 如 果 你 喜欢 , Vigen 网 站 上 有 一 本 书 提供 了 更 多 有 趣 的 例子 ， 
可 以 通过 登录 该 网 站 查找 。 
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人 均 鸡 肉 消耗 量 与 美国 
原油 进口 
总 量 之 间 的 关系 
2000 年 2001 年 2002 年 2003 年 2004 年 2005 年 2006 年 2007 年 2008 年 2009 年 
65 磅 3.88 桶 
喇 喇 
60 磅 3.68 桶 
演 
让 所 
芭 55 磅 3.48 桶 党 
内 Es 
50 磅 3.28 桶 
2000 年 2001 年 2002 年 2003 年 2004 年 2005 年 2006 年 2007 年 2008 年 2009 年 
全 原油 进口 量 ~ 鸡肉 消耗 量 











图 5-4: 完全 假 相关 的 例子 (Vigen) 


这 些 数字 之 间 显然 没有 因果 关系 。 没 有 任何 因素 可 以 同时 影响 原油 进口 和 鸡肉 的 食用 。 然 
而 ， 从 业者 需要 警惕 的 并 不 是 这 些 充 次 可 笑 的 相关 性 。 


图 5-5 中 显示 的 是 游戏 厅 的 收入 与 计算 机 科学 博士 学 位 授予 数量 的 相关 性 。 从 中 我 们 不 难 
理解 一 项 社会 学 研究 声称 观察 到 的 这 些 数据 之 间 存 在 着 联系 ， 或 许可 以 认为 “压力 大 的 博 
士 生 会 玩 儿 个 小 时 电子 游戏 寻求 放松 ”"。 让 人 郁 闽 的 是 ， 尽 管 实际 上 并 不 存在 这 种 相关 因 
素 ， 但 这 类 声明 仍然 非常 常见 



































游戏 厅 总 收入 与 美国 授予 
的 计算 机 科学 博士 学 位 
数量 之 间 的 关系 
2000 年 2001 年 2002 年 2003 年 2004 年 2005 年 2006 年 2007 年 2008 年 2009 年 
20 亿 美元 2000 学 位 “ 喇 
革 
必 175 亿 美元 是 
过 1500 学 位 济 
洱 
让 15 亿 美元 山 
二 铀 
多 1000 学 位 了 过 
名 “12.5 亿 美元 栾 
深 窜 
10 亿 美元 500 学 位 膛 
2000 年 2001 年 2002 年 2003 年 2004 年 2005 年 2006 年 2007 年 2008 年 2009 年 万 
* 计算 机 科学 博士 学 位 数量 ”~ 游戏 厅 总 收入 











图 5-5: 不 那么 假 的 相关 性 (Vigen) 


在 JVM 和 性 能 分 析 领 域 ， 需 要 注意 的 是 ， 不 要 仅仅 根据 相关 性 以 及 “看 似 合 理 ” 的 联系 
就 在 测量 结果 之 间 归 结 出 因果 关系 。 这 也 是 Feynman 的 格言 “你 不 能 糊弄 自己 ”所 表达 内 
容 的 一 个 方 国 


我 们 已 经 见 过 一 些 误 差 来 源 的 示例 ， 也 提 到 了 臭名 昭著 的 陷阱 一 一 假 相关 ， 那 么 接 下 来 会 
讨论 JVM 性 能 测量 中 一 个 需要 特别 注意 的 方面 。 
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5.3.2” 非 正 态 统计 

基于 正 态 分 布 的 统计 学 不 需要 太 多 复杂 的 数学 知识 。 因 此 ， 通 常 在 大 学 预科 或 本 科 阶 段 所 
教授 的 标准 统计 学 方法 主要 着 重 于 正 态 分 布 数据 的 分 析 。 
在 该 阶段 ， 会 教授 学 生计 算 均 值 和 标准 差 (或 方差 ) ， 有 时 还 包括 高 阶 矩 ， 如 偏 度 和 峰 度 。 
但 是 ， 这 些 技 术 有 一 个 严重 的 缺点 ， 即 如 果 分 布 中 哪怕 有 几 个 偏离 较 远 的 点 ， 结 果 也 很 容 
易 失 真 。 








在 Java 性 能 中 ， 离 群 点 代表 交易 缓慢 和 客户 不 满意 。 我 们 需要 特别 关注 这 些 
点 ， 避 免 使 用 会 忽略 其 重要 性 的 技术 。 











从 另 一 个 角度 考虑 除非 已 有 大 量 的 客户 在 抱 忽 ， 否 则 不 大 可 能 将 改进 平均 响应 时 间作 为 
目标 。 当 然 ， 这 样 做 可 以 改善 个 人 体验 ， 但 针对 客户 的 不 满意 情况 ， 我 们 会 进行 优化 延 
迟 。 这 意味 着 与 正在 接受 满意 服务 的 大 多 数 人 的 体验 相 比 ， 我 们 更 应 该 关注 离 群 事件 。 
图 5-6 显示 了 一 个 更 为 现实 的 曲线 ， 说 明 方法 (或 交易 ) 调用 次 数 的 可 能 性 分 布 。 这 显然 
不 是 一 个 正 态 分 布 。 























图 5-6: 一 个 更 现实 的 交易 次 数 分 布 图 


从 图 5-6 中 这 个 分 布 的 形状 可 以 看 出 一 些 我 们 对 JVM 已 有 的 直观 认识 : 它 存 在 “ 热 路 径 ”， 
在 该 路 径 上 ， 所 有 的 相关 代码 都 已 经 是 JIT 编译 的 ， 没 有 垃圾 收集 周期 ， 等 等 。 它 们 代表 
的 是 最 佳 情况 (尽管 也 是 一 种 常见 情况 )， 不 会 有 哪个 调用 会 随 随便 便 就 变 快 。 

这 违反 了 高 斯 统计 的 一 个 基本 假设 ,使 我 们 不 得 不 考虑 非 正 态 分 布 。 

非 正 态 分 布 并 不 遵循 正 态 分 布 统计 的 很 多 “基本 规则 ”， 对 标准 差 /方差 和 其 
他 高 阶 矩 基本 上 也 没 用 。 











有 一 种 技术 对 于 处 理 JVM 产生 的 非 正 态 和 “长 尾 ” 分 布 非常 有 用 ， 那 就 是 使 用 修改 后 的 百 
分 位 数 方案 。 不 要 忘 了 ， 分布 是 一 个 整体 的 图 形 ， 它 用 形状 而 不 是 单个 数字 来 表示 数据 。 
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平均 值 试 图 用 一 个 结果 来 表示 整体 分 布 情况 ， 不 同 于 仅 计 算 平 均值 ， 我 们 可 以 按照 时 间 间 
隔 对 分 布 进行 采样 。 当 用 于 正 态 分 布 的 数据 时 ， 通 常 以 固定 间隔 进行 采样 。 不 过 只 要 稍 加 
修改 ， 我 们 就 可 以 将 这 种 技术 应 用 于 JVM 统计 。 
修改 的 方法 是 ， 使 用 的 采样 要 将 长 尾 分 布 考虑 进去 ， 从 平均 值 开 始 ， 然 后 是 第 90 百 分 位 
数 ， 并 用 对 数 校正 ， 如 下 面 的 方法 计时 结果 所 示 。 这 意味 着 我 们 是 在 按照 一 种 更 符合 数据 
形状 的 模式 进行 采样 。 

50.0% level was 23 ns 

90.0% level was 30 ns 

99.0% level was 43 ns 

99.9% level was 164 ns 

99.99% level was 248 ns 


99.999% level was 3,458 ns 
99.9999% level was 17,463 ns 


采样 表明 ， 尽 管 执 行 一 个 getter 方法 的 平均 时 间 是 23 纳 秒 ， 但 对 于 1000 个 请 求 中 的 一 个 ， 
时 间 就 差 了 一 个 数量 级 ， 对 于 100 000 个 请 求 中 的 一 个 ， 则 比 平均 值 差 了 两 个 数量 级 。 

长 尾 分 布 也 可 以 称 为 高 动态 范围 分 布 (high dynamic range distribution) 。 观 测 值 的 动态 范围 
通常 定义 为 最 大 记录 值 除 以 最 小 值 (假设 它 不 为 零 )。 

将 对 数 进行 百 分 位 数 是 理解 长 尾 的 一 个 有 用 的 简单 工具 。 然 而 ， 要 进行 更 复杂 的 分 析 ， 我 
们 可 以 使 用 一 个 公共 库 来 处 理 高 动态 范围 的 数据 集 。 这 个 库 叫 作 HdrHistogr am， 可 以 从 
GitHub 上 获得 。 它 最 初 是 由 Azul Systems 公司 的 Gil Tene 创建 的 ，Mike Barker、Darach 
Ennis 和 Coda Hale 也 做 了 额外 的 工作 。 


直方 图 通过 使 用 一 组 有 限 的 范围 区 间 ( 称 为 “ 桶 ”) 来 总 结 数据 ， 并 显示 数 
据 落 入 每 个 桶 的 频率 。 



























































HdrHistogram 也 可 以 在 Maven 中 央 仓 库 上 使 用 。 在 本 书 撰写 时 ， 它 的 当前 版 本 是 2.1.9， 
要 将 其 添加 到 自己 的 项 目 中 ， 可 以 通过 在 pom.xml 中 添加 如 下 依赖 信息 来 实现 : 
<dependency> 
<groupId>org.hdrhistogram</groupId> 
<artifactId>HdrHistogram</artifactId> 


<version>2.1.9</version> 
</dependency> 


下 面 来 看 一 个 使 用 HdrHistogram 的 简单 例子 ， 这 个 例子 接收 一 个 由 数字 组 成 的 文件 ， 为 连 
续 结果 之 间 的 差 值 计算 HdrHistogram: 


public class BenchmarkWithHdrHistogram { 
private static final long NORMALIZER = 1_000_000; 


























private static final Histogram HISTOGRAM 
= new Histogram(TimeUnit.MINUTES.toMicros(1), 2); 


public static void main(String[] args) throws Exception { 
final List<String> values = Files.readAllLines(Paths.get(args[0])); 
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输出 
不 是 
为 一 


格式 


double last = 0; 
for (final String tVal : values) { 
double parsed = Double.parseDouble(tVal); 
double gcInterval = parsed - last; 
last = parsed; 
HISTOGRAM.recordValue((long)(gcInterval * NORMALIZER)); 


} 
HISTOGRAM.outputPercentileDistribution(System.out, 1000.0); 
} 
} 
显示 的 是 连续 进行 垃圾 收集 的 时 间 。 我 们 在 第 6 章 和 第 8 章 会 看 到 ， 




















以 固定 的 时 间 间 隔 发 生 的 ， 所 以 了 解 其 频率 分 布 很 有 用 。 下 面 是 这 个 直方 
个 垃圾 收集 日 志 样 本 产生 的 输出 : 
Value Percentile TotalCount 1/(1-Percentile) 
14.02 0.000000000000 1 1.00 
1245.18 0.100000000000 37 1.11 
1949.70 0.200000000000 82 1..25 
1966.08 0.300000000000 126 1.43 
1982.46 0.400000000000 157 1.67 
28180.48 0.996484375000 368 284.44 
28180.48 0.996875000000 368 320.00 
28180.48 0.997265625000 368 365.71 
36438.02 0.997656250000 369 426.67 
36438.02 1.000000000000 369 
#[Mean 斌 2715.12, StdDeviation = 2875.87] 
#[Max = 36438.02, Total count = 369] 
#[Buckets = 19, SubBuckets = 256] 




















因为 垃圾 收集 并 





医 














绘制 程序 


化 器 的 原始 输出 很 难 分 析 ， 但 幸运 的 是 ，HdrHistogram 项 目 包 含 了 一 个 在 线 格式 化 
器 ， 可 以 用 来 将 原始 输出 生成 可 视 化 的 直方 图 。 


对 于 这 个 例子 ， 它 产生 的 输出 如 图 5-7 所 示 。 
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对 于 许多 我 们 希望 在 Java 性 能 调 优 中 测量 的 观测 值 ， 统 计数 据 往 往 是 高 度 非 正 态 的 ， 而 
HdrHistogram 是 一 个 非常 有 用 的 工具 ， 可 以 用 可 视 化 的 方式 将 数据 的 形状 显示 出 来 以 帮助 
我 们 理解 。 


5.4 统计 的 解释 
经 验 数 据 和 观察 到 的 结果 并 不 是 一 成 不 变 的 ， 而 一 个 最 难 的 、 也 是 最 为 常见 的 工作 就 是 解 
释 我 们 从 测量 应 用 程序 中 得 到 的 结果 。 

无 论 他 们 告诉 你 什么 ， 都 是 人 的 问题 。 

















一 一 Gerald Weinberg 


5-8 是 一 个 真实 的 Java 应 用 程序 的 内 存 分 配 率 示例 ， 该 示例 适用 于 性 能 良好 的 应 用 程 
序 。 截 图 来 自 于 Censum 垃圾 收集 分 析 器 ， 我 们 将 在 第 8 章 介绍 。 
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5-8: 分 配 率 示例 


对 分 配 数据 的 解释 相对 简单 ， 因 为 存在 着 明显 的 信号 。 在 覆盖 的 时 间 段 内 〈 儿 乎 是 一 天 )， 
分 配 率 基本 稳定 在 每 秒 350~700 MB。 在 JVM 启动 约 5 小 时 后 分 配 率 开 始 出 现 一 个 下 降 趋 
势 ， 在 9~10 小 时 有 一 个 明显 的 最 小 值 ， 之 后 开始 回升 。 

对 可 观测 性 数据 进行 解释 的 这 类 趋势 非常 普遍 ， 因 为 分 配 率 通常 会 反映 出 应 用 程序 的 实际 
工作 量 ， 而 这 将 因 一 天 中 时 间 的 不 同 而 有 很 大 的 差异 。 然 而 ， 当 我 们 解释 真实 的 可 观测 数 
据 时 ， 情 况 会 迅速 变 得 更 加 复杂 。 这 就 导致 有 时 会 出 现 所 谓 的 “帽子 /大 象 ”问题 ， 该 问 
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题 出 自 Antoine de Saint-Exupkry 的 著作 《小 王子 》。 

图 5-9 说 明了 该 问题 。 我 们 最 初 只 能 看 到 一 个 复杂 的 HTTP 请 求 - 响应 时 间 的 直方 图 。 然 
而 ， 就 像 书 中 的 叙述 者 一 样 ， 如 果 我 们 能 够 进一步 想象 或 者 分 析 ， 就 会 发 现 这 个 复杂 的 画 
面 其 实 是 由 几 个 相当 简单 的 部 分 组 成 的 。 
































图 5-9: 帽子 ， 还 是 大 象 被 蟒蛇 吃 了 





解码 响应 直方 图 的 关键 是 要 认识 到 “Web 应 用 程序 响应 ”是 一 个 非常 笼统 的 类 别 ， 包 括 成 
功 的 请 求 (所 谓 的 2xx 响应 )、 客 户 端 错误 (4xx， 包 括 常 见 的 404 错误 ) 和 服务 器 错误 
(5xx， 特 别 是 内 部 服务 器 错误 500 ) 。 

每 种 响应 类 型 对 于 响应 时 间 都 有 不 同 的 特征 分 布 。 如 果 客 户 端 提出 的 URL 没有 映射 的 请 
求 (404) ， 则 Web 服务 器 可 以 立即 回复 响应 。 这 意味 着 仅 客 户 端 错误 响应 的 直方 图 看 起 来 
更 像 图 5-10。 









































5-10: 客户 端 错误 
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相 比 之 下 ， 服 务 器 错误 往往 在 大 量 的 处 理 时 间 被 消耗 之 后 才 会 发 生 (例如 ， 由 于 后 台 资 源 
紧张 或 超时 )。 因 此 ， 服 务 器 错误 响应 的 直方 图 可 能 类 似 于 图 5-11。 




















图 5-11: 服务 器 错误 

成 功 的 请 求 会 有 一 个 长 尾 分 布 ， 但 实际 上 ， 我 们 可 能 期 望 响 应 分 布 是 “多 模 态 ”的 ， 并且 
有 几 个 局 部 的 最 大 值 。 如 图 5-12 所 示 ， 它 代表 了 可 能 有 两 条 共同 的 执行 路 径 通 过 该 应 用 程 
序 ， 但 响应 时 间 截 然 不 同 。 

















图 5-12: 成 功 的 请 求 


将 这 些 不 同类 型 的 响应 组 合成 一 个 图 ， 将 得 到 如 图 5-13 所 示 的 结构 。 我 们 已 经 从 separate 
直方 图 中 重新 得 到 了 原来 的 “帽子 ”形状 。 
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5-13: 重 温 帽 子 或 大 象 


将 一 般 的 可 观测 数据 分 解 成 更 有 意义 的 子 群 是 一 个 非常 有 用 的 概念 ， 它 表明 在 尝试 从 结果 
中 推断 出 结论 之 前 ， 需 要 确保 我 们 足够 了 解数 据 和 领域 。 我 们 很 可 能 希望 将 数据 进一步 分 
解 成 更 小 的 数据 集 ， 例 如 ， 成 功 的 请 求 在 读 取 的 请 求 中 相对 于 更 新 或 上 传 的 请 求 来 说 会 有 
非常 不 同 的 分 布 。 

PayPal 的 工程 团队 已 经 写 了 很 多 关于 他 们 使 用 统计 和 分 析 的 文章 。 他 们 有 一 个 博客 ， 里 面 
有 很 好 的 资源 。 特 别 是 ，Mahmoud Hashemi 撰写 的 “Statistics for Software” 一 文 很 好 地 介 
绍 了 他 们 的 方法 论 ， 其 中 包括 前 面 讨 论 的 有 关 帽 子 /大 象 这 个 问题 的 内 容 。 


5.5 小结 


微 基准 测试 是 Java 性 能 最 接近 于 “暗黑 艺术 ”的 地 方 。 虽 然 这 种 描述 令 人 回味 ， 但 也 不 是 
完全 贴切 。 它 仍然 是 一 个 由 在 职 开 发 人 员 所 承担 的 工程 学 科 。 在 使 用 微 基准 测试 之 前 ， 请 


。 除非 知道 是 一 个 已 知 用 例 ， 否 则 不 要 使 用 微 基准 测试 。 
。 如 果 必须 使 用 微 基准 测试 ， 请 使 用 JMH。 

。 尽 可 能 公开 地 讨论 你 的 结果 ， 并 与 同行 交流 。 

，。 做 好 经 常 犯错 的 准备 ， 不 断 挑战 自己 的 思维 。 


微 基准 测试 的 一 个 好 处 是 它 揭示 了 由 低级 子 系统 产生 的 高 度 动态 行为 和 非 正 态 分 布 ， 从 而 
可 以 帮助 我 们 更 好 地 理解 JVM 的 复杂 性 和 形成 思维 模型 。 

下 一 章 将 从 方法 论 入 手 ， 开 始 对 JVM 的 内 部 结构 和 主要 子 系统 进行 技术 上 的 深入 研究 ， 
首先 是 对 垃圾 收集 的 研究 。 













































































第 6 章 


理解 垃圾 收集 





Java 环境 有 几 个 标志 性 或 定义 性 特性 ， 而 垃圾 收集 (garbage collection，GC) 就 是 其 中 最 
典型 的 一 Le 
Java 还 有 意 没 有 提供 任何 语言 级 别 的 方法 来 控制 收集 器 的 行为 〈 后 续 的 版 本 也 没有 )。， 


这 意味 着 在 早期 ， 人 们 对 Java 垃圾 收集 的 性 能 存在 一 定 程度 的 不 满 ， 而 这 也 成 为 人 们 对 整 
个 Java 平 台 的 看 法 。 


然而 ， 对 强制 式 、 用 户 不 可 控 的 垃圾 收集 的 早期 设想 ， 目 前 已 经 得 到 充分 证 明 ; 现在 已 经 
很 少 有 程序 员 还 坚持 认为 内 存 应 该 手动 管理 了 。 即 便 现在 ， 人 们 对 系统 编程 语言 (比如 
Go 和 Rust) 的 看 法 也 是 把 内 存 管理 当 作 编 译 器 和 运行 时 ， 而 不 是 程序 员 应 该 考虑 的 问题 
(除了 一 些 特殊 情况 )。 


Java 垃圾 收集 的 本 质 是 ， 与 其 要 求 程序 员 理 解 系 统 中 每 个 对 象 精确 的 生命 周期 ， 不 如 让 运 
行 时 代替 程序 员 记 录 对 象 信息 ， 并 在 不 再 需要 这 些 对 象 时 自动 将 其 释放 。 自 动 回 收 的 内 存 
之 后 可 被 清理 和 复 用 。 


垃圾 收集 的 所 有 实现 都 必须 遵循 下 面 两 个 基本 规则 : 
。 算法 必须 回收 所 有 垃圾 ， 

不 能 回收 任何 活跃 对 象 。 
两 个 规则 中 ， 第 二 个 更 重要 。 回 收 活跃 对 象 会 导致 段 错误 (segmentation fault) ， 甚 至 更 糟 
糕 的 是 ， 可 能 会 默默 破坏 程序 数据 。Java 的 垃圾 收集 算法 需要 确保 它们 不 会 回收 程序 仍 在 
使 用 的 对 象 。 


程序 员 不 用 手动 管理 每 个 底层 细节 ， 为 此 ， 他 们 必须 放弃 一 些 底层 控制 。 这 种 理念 是 










































































注 1: 虽然 有 System.gc() 方法 ， 但 基本 派 不 上 什么 用 场 。 
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Java 的 托管 方式 的 本 质 所 在 。 这 也 体现 了 James Gosling 把 Java 当 作 完成 工作 的 蓝领 语 
言 的 理念 。 


本 章 将 介绍 Java 垃圾 收集 的 一 些 基 本 理论 ， 并 解释 为 什么 Java 垃圾 收集 是 平台 中 最 难 理 
解 和 控制 的 部 分 之 一 。 我 们 还 会 介绍 HotSpot 运行 时 系统 的 基本 特性 ， 包 括 诸如 它 在 运行 
的 时 候 如 何 表示 堆 中 的 对 象 等 细节 。 

本 章 的 最 后 还 会 介绍 HotSpot 中 最 简单 的 生产 级 垃圾 收集 器 一 一 并 行 收集 器 ， 并 解释 它 能 
适合 多 种 负载 的 原因 。 


6.1 标记 和 清除 


如 果 被 追问 的 话 ， 大 部 分 Java 程序 员 能 回想 起 Java 的 垃圾 收集 依赖 于 一 个 叫 标记 和 清除 
(mark and sweep) 的 算法 ， 但 大 多 数 人 很 难 记 起 有 关 实际 操作 过 程 的 任何 细节 。 


本 方 将 介绍 该 算法 的 一 种 基本 形式 ， 并 演示 如 何 使 用 它 自动 回收 内 存 。 这 是 一 种 经 过 简化 
的 算法 形式 ， 只 是 为 了 介绍 一 些 基 本 概念 ， 并 不 代表 生产 级 JVM 实际 如 何 执行 垃圾 收集 。 


标记 和 清除 算法 的 这 一 介绍 性 形式 使 用 了 一 个 已 分 配对 象 链表 (allocated object list) 来 保 
存 指向 每 个 已 经 分 配 但 尚未 回收 的 对 象 的 指针 。 整 个 垃圾 收集 算法 描述 如 下 。 


1. 循环 遍历 已 分 配 链表 ， 清 空 标 记 位 。 
2， 从 GC 根 开始 ， 寻 找 活 跃 对 象 。 
3. 在 到 达 的 每 个 对 象 上 设置 一 个 标记 位 。 
4. 循环 遍历 已 分 配 链表 ， 对 于 每 个 标记 位 尚未 设置 的 对 象 。 
a. 回收 堆 中 内 存 ， 将 其 放 回 空间 链表 。 
b. 从 已 分 配 链表 中 移 除 该 对 象 。 
活跃 对 象 通常 是 通过 深度 优先 搜索 来 定位 的 ， 生 成 的 对 象 图 叫 作 活跃 对 象 图 (live object 
graph) 。 有 时 也 叫 作 可 达 对 象 的 传递 闭 包 (transitive closure of reachable object) ， 如 图 6-1 
所 示 。 
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图 6-1: 内 存 布局 的 简单 视图 





堆 的 状态 很 难 可 视 化 地 表现 出 来 ， 幸 运 的 是 ， 可 以 借助 一 些 简单 的 工具 。 最 简单 的 是 jmap 
-histo 命令 行 工具 。 它 会 显示 每 个 类 型 分 配 的 字 节 数 ， 以 及 共同 占用 了 这 些 内 存 的 实例 的 
数量 。 它 的 输出 类 似 下 面 这 样 : 

















num #instances #bytes class name 

1 20839 14983608 [B 

2 118743 12370760 [C 

3 14528 9385360 [I 

4: 282 6461584 [D 

5 115231 3687392 java.util.HashMap$Node 

6 102237 2453688 java.lang.String 

7 68388 2188416 java.util.Hashtable$Entry 

8: 8708 1764328 [Ljava.util.HashMap$Node; 

93 39047 1561880 jdk.nashorn.internal.runtime.CompiledFunction 
10; 23688 1516032 com.mysql.jdbc.Co...$BooleanConnectionproperty 
Ts 24217 1356152 jdk.nashorn.internal.runtime.ScriptFunction 
12: 27344 1301896 [Ljava.lang.0Object; 

13: 10040 1107896 java.Lang.CLass 

14: 44090 1058160 java.util.LinkedList$Node 

15: 29375 940000 java.util.LinkedList 

16; 25944 830208 jdk.nashorn.interna...FinalScriptFunctionData 
7 20 655680 [Lscala.concurrent.forkjoin.ForkJoinTask; 

18: 19943 638176 java.util.concurrent.ConcurrentHashMap$Node 
19: 730 614744 [Ljava.util.Hashtable$Entry; 

20: 24022 578560 [Ljava.lang.Class; 


还 有 一 个 可 以 使 用 的 GUI 工 具 : 第 2 章 介 绍 过 的 VisualVM 的 Sampling 页 。VisualVM 的 
VisualGC 插件 提供 了 一 个 堆 变 化 情况 的 实时 视图 ， 但 是 一 般 而 言 ， 从 一 个 时 刻 到 另 一 个 时 
刻 的 堆 视 图 还 不 足以 用 于 精确 分 析 ， 要 获得 更 好 的 结果 ， 应 该 使 用 垃圾 收集 日 志 ， 第 8 章 


会 重点 介绍 。 


垃圾 收集 术语 

用 于 描述 垃圾 收集 算法 的 术语 有 点 混乱 ， 有 些 术 语 的 意义 还 会 随 着 时 间 的 推移 发 生变 化 。 

为 清晰 起 见 ， 下 面 提供 了 一 个 基本 的 术语 表 ， 说 明 本 书 是 如 何 使 用 具体 术语 的 。 

全 部 停顿 ( stop-the-world，STW ) 
在 垃圾 收集 时 ， 垃 圾 收集 周期 要 求 所 有 的 应 用 程序 线程 停顿 。 这 可 以 避免 在 垃圾 收集 
时 ， 应 用 程序 代码 破坏 垃圾 收集 线程 所 掌握 的 堆 状 态 信 息 。 大 部 分 简单 的 垃圾 收集 算法 
都 是 如 此 。 

并 发 ( concurrent ) 
垃圾 收集 线程 可 以 在 应 用 程序 线程 运行 的 时 候 运 行 。 实 现 并 发 十 分 困难 ， 而 且 计 算 成 本 
也 非常 高 。 几 乎 没有 算法 是 真正 并 发 的 。 而 且 ， 我 们 需要 使 用 复杂 的 技巧 来 挖掘 并 发 
收集 的 优势 。 在 7.3 节 中 我 们 会 看 到 HotSpot 中 的 并 发 标记 和 清除 (concurrent mark and 
sweep，CMS) 收集 器 ， 名 虽 如 此 ， 或 许 用 “基本 并 发 ”收集 器 来 描述 更 为 恰当 。 


并 行 (parallel ) 
有 多 个 线程 用 于 执行 垃圾 收集 。 
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精确 (exact ) 
对 于 堆 的 状态 ， 精 确 垃圾 收集 模式 有 足够 的 类 型 信息 ， 从 而 确保 所 有 垃圾 都 能 在 一 
个 周期 内 完成 回收 。 更 宽泛 地 说 ， 精 确 模 式 拥有 区 分 一 个 int 和 一 个 指针 所 需 的 属性 
(property ) 。 











保守 (conservative ) 
保守 模式 缺乏 精确 模式 所 具备 的 信息 。 因 此 ， 保 守 模 式 经 常会 浪费 资源 ， 而 且 因 为 它们 
根本 不 了 解 自己 所 代表 的 类 型 系统 ， 所 以 往往 不 那么 高 效 。 
移动 ( moving ) 
在 移动 垃圾 收集 器 中 ， 对 象 在 内 存 中 的 位 置 有 可 能 变化 ， 因 此 它们 的 地 址 不 是 稳定 的 。 
支持 使 用 原始 指针 的 环境 (如 C++) 不 是 特别 适合 移动 收集 器 。 
压缩 (compacting ) 
在 收集 周期 结束 时 ， 已 分 配 的 内 存 ( 即 存活 的 对 象 ) 被 组 组 为 一 个 单一 的 连续 区 域 ( 通 
币 在 该 区 域 的 开始 处 )， 并 有 一 个 指针 用 来 指示 可 供 写 入 对 象 的 空闲 空间 的 起 始 位 置 。 
压缩 收集 器 可 以 避免 内 存 碎片 。 
芯 散 〈evacuating ) 
在 收集 周期 结束 时 ， 已 收集 区 域 完 全 为 空 ， 所 有 的 话 对 象 都 被 移动 (或 玻 散 ) 到 另 一 个 
内 存 区 域 。 
在 大 多 数 其 他 语言 和 环境 中 ， 也 使 用 了 同样 的 术语 。 比 如 ，Firefox Web 浏览 器 (SpiderMonkey) 
中 的 JavaScript 运行 时 也 使 用 了 垃圾 收集 ， 并 且 近 年 来 也 在 加 入 目前 Java 的 垃圾 收集 实现 
中 已 经 存在 的 一 些 特性 (如 精确 性 和 压缩 )。 


6.2 ”HotSpot 运 行 时 


除了 一 般 的 垃圾 收集 术语 外 ，HotSpot 还 引入 了 一 些 专 属于 自身 实现 的 术语 。 为 了 全 面 了 
解 垃圾 收集 在 这 款 JVM 上 是 如 何 工作 的 ， 需 要 掌握 HotSpot 内 部 的 一 些 细节 。 

为 了 学 习 接 下 来 的 内 容 ， 记 住 Java 只 有 两 种 类 型 的 值 是 非常 有 帮助 的 : 

。 基本 类 型 (byte、int 等 ) ; 

。 对 象 引用 。 

许多 Java 程序 员 会 很 宽泛 地 谈论 对 象 ， 但 就 我 们 的 目的 而 言 ， 记 住 这 一 点 非常 重要 : 与 
C++ 不 同 ，Java 没有 通用 的 地 址 解 引 用 (address dereference) 机 制 ， 只 能 使 用 一 个 偏 移 操 
作 符 (.) 来 访问 字段 和 调用 对 象 引 用 的 方法 。 另 外 还 请 记 住 ，Java 的 方法 调用 语义 是 纯 
粹 的 按 值 调用 〈call-by-value) ， 尽 管 对 于 对 象 引用 来 说 ， 这 意味 着 被 复制 的 值 是 对 象 在 堆 
中 的 地 址 。 


6.2.1 ”对象 的 运行 时 表示 
HotSpot 通过 一 个 叫 作 oop 的 结构 来 表示 运行 时 Java 对 象 。 这 是 普通 对 象 指针 (ordinary 
object pointer) 的 简称 ， 是 C 语言 意义 上 的 真正 指针 。 这 些 指针 可 以 放置 在 引用 类 型 的 局 






































部 变量 中 ， 在 该 变量 中 它们 从 Java 方法 的 栈 帧 指向 包含 Java 堆 的 内 存 区 域 。 
有 几 种 不 同 的 数据 结构 组 成 了 oop 家 族 ， 而 用 于 表示 Java 类 的 实例 的 类 型 叫 作 


instance0op。 


PR en la de 其 中 的 第 一 个 
是 mark word， 它 是 一 个 指针 ， 指 向 特定 于 该 实例 的 元 数据 。 下 一 个 是 klass word， 它 指 
向 类 级 别 的 元 数据 。 

在 Java 7 和 之 前 的 版 本 中 ，instance0op 的 klass word 指向 一 个 名 为 PermGen 的 内 存 区 
域 ， 它 是 Java 堆 的 一 部 分 。 一 般 的 规则 是 ，Java 堆 中 的 任何 东西 都 必须 有 一 个 对 象 头 。 在 
这 些 旧 的 Java 版 本 中 ， 我 们 把 元 数据 称 为 klass0op。Kklass0op 的 内 存 布 局 很 简单 ， 就 是 对 
象 头 后 面 紧 跟 着 klass 元 数据 。 


从 Java 8 开始 ，klass 被 保存 在 Java 堆 的 主要 部 分 之 外 (但 不 在 JVM 进程 的 C 堆 之 外 )。 
在 这 些 Java 版 本 中 ，klass 字 不 需要 对 象 头 ， 因 为 它们 指向 Java 堆 之 外 。 


开头 的 k 是 用 来 帮助 区 分 klass0op 和 代表 Java Class<?> 对 象 的 instance0op， 
它们 不 是 一 回 事 。 



































在 图 6-2 中 ,我们 可 以 看 到 两 者 的 区 别 。 从 根本 上 说 ，klass0op 包含 对 应 类 的 虚 函 数 表 
(vtable)， 而 Class 对 象 包含 了 一 个 指向 Method 对 象 的 引用 数组 ， 用 于 反射 式 调用 。 在 第 
9 章 讨论 JIT 编译 时 ， 会 有 更 多 相关 讨论 。 


























oop 5NE oop 
(Entry 对 象 ) (Entry.class) 
Methods 
(支持 以 反射 模式 调 ) 了 
CNGAWo M1 |M2|M3 
vtable vtable 
KlassOop KlassOop 
(for Entry) (for Class) 
tostring() getMethod () 








6-2: klass0op 和 Class 对 象 














oop 通常 是 机 器 字 ， 所 以 在 传统 的 32 位 机 器 上 是 32 位 ， 而 在 现代 处 理 器 上 是 64 位 。 然 
而 ， 这 可 能 会 浪费 大 量 的 内 存 。 为 了 缓解 这 种 情况 ，HotSpot 提供 了 一 种 叫 作 压缩 指针 
(compressed oops) 的 技术 。 如 果 设 置 了 -XX:+UseCompressed0ops 这 个 选项 (在 Java 7 及 以 
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后 的 版 本 中 ， 在 64 位 机 器 上 该 选项 默认 开启 )， 则 堆 中 的 如 下 oop 会 被 压缩 : 


。 堆 中 每 个 对 象 的 klass word 
引用 类 型 的 实例 字段 
。 对 象 数 组 的 每 一 个 元 素 
一 般 而 言 ， 这 意味 着 一 个 HotSpot 对 象 的 头 部 由 以 下 部 分 组 成 : 
。 mark word (完整 大 小 ) 
。 klass word (可 能 被 压缩 ) 
。 length word (如 果 对 象 是 一 个 数组 ) ， 它 总 是 32 位 的 
。 一 个 32 位 大 小 的 间 际 (如 果 对 齐 规则 有 要 求 的 话 ) 
对 象 的 实例 字段 紧 跟 在 头 部 之 后 。 对 于 ktlass0op, 方法 的 虚 函 数 表 直 接 跟 在 klass word 后 
在。 压缩 后 的 oop 的 内 存 布局 如 图 6-3 所 示 。 








bd 























0x21a3c214 
mark klass 
32 位 整 型 数 
0x00000017e022c310 
mark klass 
64 位 整 型 数 
0x000000037e2190a2 
mark klass 


ox000000010f3112c7 Ox3f0324a0| 42 | 


压缩 指针 整 型 数 











图 6-3: 压缩 的 oop 


过 去 ， 一 些 对 延迟 极为 敏感 的 应 用 程序 偶尔 可 以 通过 关闭 压缩 指针 特性 来 提高 性 能 ， 但 代 
价 是 增加 了 堆 的 大 小 (通常 会 增加 10%~50%)。 然 而 ， 能 够 获得 可 测量 的 性 能 优势 的 应 用 
程序 种 类 其 实 非 常 少 ， 对 于 大 多 数 现代 应 用 程序 来 说 ， 这 反而 是 第 4 章 中 反 模 式 “ 摆 弄 开 
关 ” 的 典型 例子 。 

正如 我 们 所 了 解 的 Java 基础 知识 ， 数 组 是 对 象 。 这 意味 着 JVM 的 数组 也 是 以 oop 的 形 
式 来 表示 的 。 这 就 是 为 什么 数组 的 元 数据 既 有 第 3 个 字 ， 也 有 通常 的 mark word 和 klass 
word。 第 3 个 字 是 数组 的 长 度 ， 这 也 解释 了 为 什么 Java 中 的 数组 索引 被 限制 为 32 位 值 。 








使 用 额外 的 元 数据 来 携带 数组 的 长 度 缓解 了 C 和 C++ 中 存在 的 一 系列 问题 ; 
在 C 和 C++ 中 ， 如 果 不 知道 数组 的 长 度 ， 则 意味 着 必须 向 函数 传递 额外 的 




















除了 指向 instance0op (或 nuLL) ，JVM 托管 环境 不 允许 Java 引用 指向 其 他 任何 地 方 。 这 
意味 着 在 底层 : 


。 一 个 Java 值 是 一 个 比特 模式 ,要 么 对 应 一 个 基本 类 型 的 值 ,要 么 对 应 一 个 instance0op(3 引 
用 ) 的 地 址 ; 

。 任何 被 视 为 指针 的 Java 引用 均 指 向 Java 堆 主 体 部 分 中 的 一 个 地 址 ， 

。 作为 Java 引用 的 目标 的 地 址 中 ， 均 包含 一 个 mark word， 下 一 个 机 器 字 是 klass word; 

。 一 个 kLass0op 和 一 个 Class<?> 的 实例 是 不 同 的 (因为 前 者 存在 于 堆 的 元 数据 区 域 中 )， 
而 且 一 个 klass0op 是 不 能 放 在 Java 变量 中 的 。 


HotSpot 在 一 系列 .hpp 头 文件 中 定义 了 oop 的 层次 结构 ， 这 些 文件 被 保存 在 OpenJDK 8 源 
码 树 的 hotspot/src/share/vm/oops 中 。oop 的 整体 继承 层次 结构 是 这 样 的 : 
oop (抽象 基 类 ) 

instance0op (实例 对 象 ) 

method0op (方法 的 表示 ) 

array0op (数组 抽象 基 类 ) 

symbol0op (内 部 符号 /字符 串 类 ) 

klass0op (ktLass 头 部 ， 只 存在 于 Java 7 和 更 早 的 版 本 中 ) 

markOop 


使 用 oop 结构 来 表示 运行 时 的 对 象 ， 用 一 个 指针 来 指向 类 级 的 元 数据 ， 另 一 个 指针 来 指向 


实例 级 的 元 数据 ， 这 种 用 法 并 不 少见 。 其 他 许多 JVM 和 执行 环境 也 使 用 了 相关 机 制 。 比 
如 ，Apple 的 iOS 就 使 用 了 类 似 的 模式 来 表示 对 象 。 






































6.2.2 GC 根 和 Arena 


关于 HotSpot 的 文章 和 博客 经 常 引 用 GC 根 。 这 些 是 内 存 的 “ 错 点 ”， 本 质 上 是 已 知 的 指 
针 ， 处 于 它 感 兴趣 的 内 存 地 之 外 ， 并 指向 这 个 内 存 池 。 它 们 是 外 部 指针 ， 和 内 部 指针 截然 
不 同 。 内 部 指针 是 处 于 一 个 内 存 池内 ， 并 指向 当前 内 存 池 内 的 另 一 个 位 置 。 

图 6-1 中 是 一 个 GC 根 的 示例 。 不 过 我 们 还 将 看 到 其 他 类 型 的 GC 根 ， 包 括 : 

。 栈 帧 

。 JNI 

。 寄存 器 (用 于 变量 提升 情况 ) 

。 代码 根 (来 自 JVM 代码 缓存 ) 

。 全 局 变量 

。 来 自己 加 载 类 的 元 数据 

如 果 感 觉 这 个 定义 比较 复杂 ， 那 么 最 简单 的 GC 根 的 例子 就 是 引用 类 型 的 局 部 变量 ， 它 总 
是 指向 堆 中 的 一 个 对 象 (假设 它 不 为 nuLL)。 
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HotSpot 垃圾 收集 器 是 以 内 存 区 域 的 方式 工作 的 ， 这 里 的 内 存 区 域 被 称 为 Arena。 这 是 一 
个 非常 底层 的 机 制 ，Java 开发 人 员 通 常 不 需要 这 么 详细 地 考虑 内 存 系统 的 运行 机 制 。 然 
而 ， 性 能 专家 有 时 需要 深入 研究 JVM 的 内 部 ， 因 此 熟悉 相关 文献 中 使 用 的 概念 和 术语 是 
有 帮助 的 。 

有 一 个 重要 的 事实 需要 记 住 ， 即 HotSpot 不 使 用 系统 调用 来 管理 Java 堆 。 相 反 ， 正 如 3.6 
节 中 所 讨论 的 ，HotSpot 通过 用 户 空间 代码 来 管理 堆 的 大 小 ， 所 以 我 们 可 以 使 用 简单 的 观 
测 对 象 来 判断 垃圾 收集 子 系统 是 否 正在 引发 某 些 类 型 的 性 能 问题 。 

下 一 节 将 仔细 研究 驱动 任何 Java 或 JVM 工作 负载 的 垃圾 收集 行为 的 两 个 最 重要 的 特性 。 
对 于 任何 想 要 真正 掌握 驱动 Java 垃圾 收集 (Java 垃圾 收集 是 Java 性 能 的 主要 驱动 因素 之 
一 ) 的 因素 的 开发 人 员 来 说 ， 充 分 理解 这 些 特性 是 必 不 可 少 的 。 


6.3 ”分配 与 生命 周期 


一 个 Java 应 用 程序 的 垃圾 收集 行为 主要 有 两 个 驱动 因素 : 
。 分 配 率 

。 对 象 生命 周 其 

分 配 率 是 新 创建 的 对 象 在 一 个 时 间 段 内 所 使 用 的 内 存量 (通常 以 MB/s 为 单位 )。 它 并 不 是 
由 JVM 直接 记录 下 来 的 ， 但 这 个 值 很 容易 估算 ， 并 且 也 可 以 使 用 Censum 这 样 的 工具 来 精 
确 测定 。 

相 比 之 下 ， 对 象 的 生命 周期 通常 很 难 测量 (甚至 估算 )。 事 实 上 ， 反 对 使 用 手动 内 存 管理 
的 主要 论据 之 一 ， 就 是 要 真正 理解 实际 应 用 程序 中 的 对 象 生 命 周 期 过 于 复杂 。 因 此 ， 对 象 
生命 周期 甚至 比分 配 率 更 重要 。 

垃圾 收集 也 可 以 被 认为 是 “内 存 回 收 和 再 利用 ”。 因 为 对 象 寿命 短暂 ， 所 以 
能 够 反复 使 用 同一 块 物理 内 存 是 垃圾 收集 技术 的 一 个 关键 假设 。 
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对 象 被 创建 出 来 ， 存 活 一 段 时 间 ， 之 后 用 于 存储 其 状态 的 内 存 可 以 被 回收 ， 这 个 理念 至 关 
重要 ， 没 有 这 个 理念 ， 垃 圾 收集 将 无 法 工作 。 正 如 我 们 将 在 第 7 章 中 看 到 的 ， 垃 圾 收集 器 
必须 多 方 权衡 ， 而 其 中 最 重要 的 一 些 权 衡 就 是 由 生命 周期 和 分 配 问题 所 驱动 的 。 


弱 分 代 假说 
JVM 内 存 管理 的 一 个 关键 部 分 依赖 于 一 个 观察 到 的 软件 系统 在 运行 时 的 表现 ， 即 弱 分 代 假 
说 (weak generational hypothesis) : 
在 JVM 和 类 似 的 软件 系统 中 ， 对 象 生 命 周期 的 表现 为 双 峰 分 布 一 大 部 分 对 象 
寿命 很 短 ， 次 一 级 对 象 的 寿命 长 于 预期 。 
这 个 假说 实际 上 是 从 实验 中 观察 到 的 关于 面向 对 象 工作 负载 行为 的 一 个 经 验 法 则 ， 由 此 得 
































出 一 个 明显 的 结论 : 垃圾 收集 堆 应 该 以 这 样 的 方式 组 织 ， 即 能 够 方便 快速 地 收集 寿命 短 的 

对 象 ， 并 且 最 好 让 寿命 长 的 对 象 可 以 与 寿命 短 的 隔离 开 来 。 

HotSpot 使 用 了 下 面 几 种 机 制 来 尝试 利用 弱 分 代 假 说 : 

。 它 会 跟踪 每 个 对 象 的 “年 龄 ”( 或 者 说 代数 , 即 该 对 象 到 目前 为 止 熬 过 的 垃圾 收集 次 数 )， 

。 除了 大 对 象 外 ， 它 在 “Eden” 空 间 (也 叫 Nursery) 中 创建 新 对 象 ， 并 且 期 望 移动 存活 
的 对 象 ; 

。 它 维 护 着 一 个 单独 的 内 存 区 域 (Old Generation 或 者 Tenured Generation) 来 保存 那些 已 
经 存活 足够 长 而 且 很 有 可 能 继续 存活 下 去 的 对 象 。 

这 种 方法 引出 了 如 图 6-4 所 示 的 简化 形式 的 视图 ， 其 中 存活 了 一 定数 量 的 垃圾 收集 周期 的 

对 象 被 提升 到 了 老年 代 。 注 意 区 域 是 连续 的 。 























栈 Eden Survivor Tenured 
































6-4: 分 代 收 集 


为 了 进行 分 代 收 集 而 将 内 存 划 分 成 不 同 区 域 ， 会 给 HotSpot 如 何 实现 标记 和 清除 收集 带 来 
额外 的 影响 。 一 项 重要 的 技术 涉及 跟踪 记录 从 外 部 指向 新 生 代 内 的 指针 。 这 使 得 垃圾 收集 
周期 不 必 遍 历 整个 对 象 图 来 确定 仍然 活着 的 新 生 代 对 象 。 


“有 极 少 数 从 老年 代 指向 新 生 代 对 象 的 引用 ”， 这 句 话 有 时 被 引用 作为 弱 分 代 
假说 的 第 二 部 分 。 








为 方便 处 理 ，HotSpot 维护 了 一 个 叫 作 卡 表 (card table) 的 结构 ， 以 帮助 记录 哪些 老年 代 
对 象 可 能 指向 新 生 代 对 象 。 卡 表 本 质 上 是 一 个 由 JVM 管理 的 字 市 数组 ， 该 数组 的 每 个 元 
素 对 应 于 老年 代 中 一 个 512 字 刷 的 区 域 。 


其 核心 思想 是 ， 当 老年 代 中 对 象 o 中 的 一 个 引用 类 型 的 字段 被 修改 时 ， 包 含 与 o 相对 应 的 
instance0op 的 卡 表 项 被 标记 为 “ 脏 ”(dirty)。 当 更 新 引用 字段 时 ，HotSpot 通过 一 个 简单 














理解 垃圾 收集 | 97 


的 写 屏 障 (write barrier) 来 实现 这 一 点 。 它 本 质 上 可 以 归结 为 在 字段 存储 后 执行 了 这 样 一 
段 代 码 : 


cards[*instanceOop >> 9] = 1; 
注意 卡片 的 脏 值 为 1， 右 移 9 位 后 得 到 卡 表 的 大 小 为 512 字 节 。 


最 后 ， 需 要 注意 的 是 ， 在 历史 上 ， 用 新 生 代 和 老年 代 来 描述 堆 是 Java 收集 器 管理 内 存 的 方 
式 。 随 着 Java 8u40 的 到 来 ， 一 种 新 的 收集 器 (garbage first，G1) 达到 了 生产 质量 。G1 选 
择 了 不 同 的 堆 布 局 方法 ， 这 将 在 7.4 节 中 介绍 。 关 于 堆 管理 的 这 种 新 的 思维 方式 将 变 得 越 
来 越 重要 ， 因 为 Oracle 的 意图 是 让 G1 成 为 Java 9 以 后 的 默认 收集 器 。 


6.4 ” HotSpot 中 的 垃圾 收集 


回顾 一 下 ， 与 C/C++ 和 类 似 环境 不 同 ，Java 不 使 用 操作 系统 来 管理 动态 内 存 。 相 反 ， 当 
JVM 进程 启动 时 ，JVM 预先 分 配 (或 保留 ) 内 存 ， 并 在 用 户 空间 管理 单一 连续 的 内 存 池 。 
正如 我 们 所 看 到 的 ， 这 个 内 存 池 是 由 多 个 具有 特定 用 途 的 不 同 区 域 组 成 的 ， 而 且 对 象 的 地 
址 会 经 常 发 生变 化 。 这 是 因为 垃圾 收集 器 会 重新 安置 (relocate) 通常 在 Eden 区 创建 的 对 
象 。 执 行 重新 安置 的 收集 器 被 称 为 “ 玻 散 ”收集 器 ，6.1 节 曾 提 到 过 。HotSpot 可 以 使 用 的 
许多 收集 器 是 下 散 式 的 。 


6.4.1 线程 本 地 分 配 

JVM 使 用 了 一 个 性 能 增强 来 管理 Eden 区 。 这 是 一 个 需要 进行 高 效 管理 的 关键 区 域 ， 因 为 
大 多 数 对 象 是 在 这 里 创建 的 ， 而 且 寿 命 非常 得 的 对 象 (和 后 命 周 期 小 于 下 一 个 垃圾 收集 周期 
剩余 时 间 的 那些 ) 永远 不 会 再 出 现在 其 他 地 方 。 

为 了 提高 效率 ，JVM 将 Eden 区 划分 成 若干 个 缓冲 区 ， 并 将 这 些 缓冲 区 交 给 应 用 程序 线程 
使 用 ， 用 于 新 对 象 的 分 配 。 这 种 方法 的 好 处 是 ， 每 个 线程 都 知道 自己 不 需要 考虑 其 他 线 
程 在 该 缓冲 区 内 分 配 的 可 能 性 。 这 些 区 域 叫 作 线 程 本 地 分 配 缓冲 区 (thread-local allocation 
buffsr，TLAB ) 。 


HotSpot 会 动态 设置 分 给 应 用 程序 线程 的 TLAB 的 大 小 ， 所 以 如 果 某 个 线程 


的 内 存 就 要 耗 尽 了 ， 可 以 为 其 分 配 更 大 的 TLAB ， 以 减少 向 该 线程 提供 缓冲 
区 的 开销 。 










































































应 用 程序 线程 对 其 TLAB 的 这 种 排他 性 控制 ， 意 味 着 对 JVM 线程 来 说 ,分 配 操作 的 时 间 
复杂 度 是 0(1)。 这 是 因为 当 一 个 线程 创建 一 个 新 对 象 时 ， 将 为 该 对 象 分 配 存 储 空间 ， 并 且 . 
将 线程 本 地 指针 更 新 为 指向 下 一 个 空闲 的 内 存 地 址 。 从 C 运行 时 角度 看 ， 这 是 一 个 简单 的 
指针 碰撞 ， 也 就 是 多 了 一 条 指令 ， 将 “next free” 指 针 向 前 移动 了 一 下 。 

这 种 行为 如 图 6-5 所 示 ， 其 中 每 个 应 用 程序 线程 都 持 有 一 个 用 来 分 配 新 对 象 的 缓冲 区 。 如 
果 应 用 程序 线程 填 满 了 其 缓冲 区 ， 那 么 JVM 会 提供 一 个 指向 Eden 区 中 的 新 区 域 的 指针 。 
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图 6-5: 线程 本 地 分 配 


6.4.2 ”半空 间 收 集 


下 散 式 收集 器 有 种 特殊 情况 值得 注意 。 这 种 类 型 的 收集 器 有 时 被 称 为 半空 间 朴 散 式 收集 器 
(hemispheric evacuating collector) ， 它 会 使 用 两 个 空间 (通常 大 小 相同 )。 其 核心 思想 是 将 
这 些 空间 作为 那些 实际 寿命 比较 短 的 对 象 的 临时 存储 区 。 这 样 可 以 防止 短 寿命 的 对 象 把 老 
年 代 弄 乱 ， 还 可 以 降低 整 堆 收集 (Full GC) 的 频率 。 这 些 空间 有 两 个 基本 属性 : 


当 收 集 器 正在 收集 当前 活跃 的 半空 间 时 ， 对 象 会 被 以 压缩 方式 移动 到 另 一 半空 间 ， 完 成 
收集 的 一 半空 间 会 被 清空 以 等 待 复 用 ; 
。 任何 时 候 ， 总 有 一 半 的 空间 是 空 的 。 
当然 ， 这 种 方法 使 用 的 内 存 是 收集 器 半空 间 部 分 实际 可 以 容纳 的 内 存 的 两 倍 。 这 在 某 种 程 
度 上 是 浪费 ， 但 如 果 空 间 不 太 大 ， 这 种 技术 往往 就 非常 有 用 。HotSpot 就 是 利用 这 种 半空 
间 方 法 ， 结 合 Eden 空间 ， 为 新 生 代 提供 了 一 个 收集 器 。 
HotSpot 新 生 代 堆 的 半空 间 部 分 被 称 为 Survivor 空间 。 从 图 6-6 所 示 的 VisualGC 视图 中 可 
以 看 到 ， 与 Eden 相 比 ，Survivor 空间 通常 比较 小 ， 而 且 它 的 角色 会 随 着 每 一 次 新 生 代 的 垃 
圾 收集 而 互 换 。 第 8 章 将 讨论 如 何 调整 Survivor 空间 的 大 小 。 
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6-6: VisualGC 插件 


我 们 在 2.7 节 介 绍 了 VisualVM， 它 的 VisualGC 插件 是 一 个 非常 有 用 的 、 初 步 的 垃圾 收集 
调试 工具 。 正 如 第 7 章 将 讨论 的 ， 与 VisualGC 所 使 用 的 即时 JMX 数据 相 比 ， 垃 圾 收集 日 
志 包 含 更 多 有 用 的 信息 ， 而 且 支 持 对 垃圾 收集 进行 更 深入 的 分 析 。 然 而 ， 在 开始 新 的 分 析 
时 ， 简 单 地 了 解 应 用 程序 的 内 存 使 用 情况 往往 是 很 有 帮助 的 。 

使 用 VisualGC 可 以 看 到 垃圾 收集 的 一 些 聚 合 效果 ， 例 如 对 象 在 堆 中 被 重新 安置 ， 以 及 每 
次 新 生 代 收 集 时 发 生 在 Survivor 空间 之 间 的 循环 交换 。 


— 

6.5 ”并 行 收集 器 
在 Java 8 和 更 早 的 版 本 中 ，JVM 的 默认 收集 器 是 并 行 收集 器 。 它 们 的 新 生 代 收 集 和 老年 代 
收集 都 是 全 部 停顿 的 (STW)， 而 且 针 对 吞吐 量 进行 了 优化 。 在 停止 所 有 的 应 用 程序 线程 之 
后 ， 并 行 收集 器 会 使 用 所 有 可 利用 的 CPU 核心 来 尽快 回收 内 存 。 可 用 的 并 行 收集 器 如 下 。 
Parallel GC 

用 于 新 生 代 的 最 简单 的 收集 器 
ParNew 

与 CMS 收集 器 配合 使 用 的 并 行 垃圾 收集 的 变种 。 
ParallelOld 

用 于 老年 代 的 并 行 收集 器 
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这 儿 个 并 行 收集 器 彼此 在 某 些 方面 有 些 相 似 一 一 在 设计 上 ， 它 们 都 使 用 多 个 线程 来 尽快 找 
到 活 对 象 ， 同 时 尽 可 能 减少 短 记 信息 。 不 过 它们 之 间 也 有 一 些 区 别 ， 所 以 下 面 我 们 来 看 看 
新 生 代 收 集 和 老年 代 收 集 这 两 种 主要 类 型 。 


6.5.1 新 生 代 并 行 收 集 
最 常见 的 收集 类 型 是 新 生 代 收 集 。 它 通常 发 生 在 这 样 的 情况 下 : 一 个 线程 试图 向 Eden 空 
间 中 分 配 一 个 对 象 ， 但 在 其 TLAB 中 已 经 没有 足够 的 空间 ， 而 且 JVM 也 无 法 为 该 线程 分 
配 一 个 新 的 TLAB。 此 时 JVM 除了 停止 所 有 的 应 用 程序 线程 之 外 别 无 选择 ， 因 为 如 果 一 个 
线程 无 法 分 配 ， 那 么 很 快 所 有 的 线程 就 都 将 无 法 分 配 了 。 


线程 也 可 以 在 TLAB 之 外 进行 分 配 ( 比 如， 对 于 大 块 内 存 )。 当 然 在 理想 的 
情况 下 ， 非 TLAB 分 配 的 比率 不 能 过 高 。 











一 旦 所 有 的 应 用 程序 线程 (或 者 用 户 线程 ) 停止 ，HotSpot 就 会 查看 新 生 代 ( 它 被 定义 为 
Eden 空间 和 当前 非 空 的 Survivor 空间 ) ， 并 识别 出 所 有 非 垃 圾 对 象 。 它 会 将 GC 根 作为 并 
行 标 记 扫 描 的 起 点 (还 会 利用 卡 表 来 识别 来 自 老 年 代 的 GC 根 )。 


然后 ，Parallel GC 收集 器 会 将 所 有 幸存 的 对 象 瓦 散 到 当前 为 空 的 Survivor 空间 中 (并 在 重 
新 安置 时 增加 这 些 对 象 的 代数 )。 最 后 ， 将 Eden 和 刚刚 政 散 完 的 Survivor 空间 标记 为 空 
的 、 可 重复 使 用 的 空间 ， 并 启动 应 用 程序 线程 ， 这 样 也 就 可 以 重新 开始 向 应 用 程序 线程 分 
发 TLAB 了 。 这 一 过 程 如 图 6-7 和 图 6-8 所 示 。 











Survivor 























图 6-7: 新 生 代 收集 
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栈 Eden Survivor 
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图 6-8: 新 生 代 琉 散 


这 种 方法 试图 通过 只 接触 活 对 象 来 充分 利用 弱 分 代 假说 。 它 还 希望 尽 可 能 高 效 ， 尽 可 能 使 
用 所 有 的 CPU 核心 来 运行 ， 以 缩短 全 部 停顿 的 暂停 时 间 。 


6.5.2 老年 代 并 行 收集 


ParallelOld 收集 器 是 目前 (从 Java 8 开始 ) 默认 的 老年 代 收 集 器 。 它 与 Parallel GC 在 很 多 
地 方 非常 相似 ， 但 也 有 一 些 根本 的 区 别 。 特 别 是 ，Parallel GC 是 半空 间 蔗 散 型 收集 器 ， 而 
ParallelOld 是 只 有 一 个 连续 内 存 空间 的 压缩 型 收集 器 。 

这 意味 着 ， 由 于 老年 代 没 有 甚 他 空间 可 以 下 散 ， 因 此 ParallelOld 收集 器 要 尝试 在 老年 代 之 
内 重新 安置 对 象 ， 以 回收 死亡 对 象 留 下 的 空间 。 因 此 ， 这 种 收集 器 可 以 非常 高 效 地 使 用 内 
存 ， 而 且 不 会 受 内 存 碎片 的 困扰 。 

这 将 产生 非常 高 效 的 内 存 布局 ， 但 代价 是 在 整个 垃圾 收集 周期 内 ， 可 能 要 消耗 大 量 CPU 
资源 。 两 种 方法 的 区 别 如 图 6-9 所 示 。 
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图 6-9: 琉 散 与 压缩 的 对 比 


这 两 种 内 存 空 间 的 行为 截然 不 同 ， 因 为 它们 用 于 不 同 的 目的 。 新 生 代 收集 的 目的 是 处 理 寿命 
较 短 的 对 象 ， 所 以 新 生 代 空间 的 占用 率 会 随 着 垃圾 收集 事件 中 的 分 配 和 清除 而 发 生 巨 大 变化 。 
相 比 之 下 ， 老 年 代 不 会 发 生 明显 的 变化 。 偶 尔 会 有 大 对 象 直 接 在 老年 代 中 创建 ， 但 除 此 之 
外 ， 空 间 只 会 在 垃圾 收集 时 才 会 发 生变 化 一 一 要 么 是 对 象 从 新 生 代 中 晋升 过 来 ， 要 么 是 老 
年 代 收 集 (Old GC) 或 整 堆 收集 时 全 面 的 重新 扫描 和 重新 安排 。 


6.5.3 ”并 行 收集 器 的 局 限 性 
并 行 收集 器 不 仅 会 一 次 性 处 理 整个 代 中 的 所 有 内 容 ， 而 且 会 尽量 提高 收集 效率 。 然 而 ， 这 


种 设计 也 有 一 些 缺点 。 首 先 ， 它 们 完全 是 全 部 停顿 的 。 对 于 新 生 代 而 言 ， 这 通常 不 是 问 
题 ， 因 为 根据 “ 弱 分 代 假说 "， 只 有 很 少 的 对 象 能 够 存活 。 


新 生 代 并 行 收集 器 是 这 样 设计 的 : 死 对 象 不 会 被 触 碰 到 ， 所 以 标记 阶段 的 长 
度 与 存活 对 象 的 数量 (少量) 成 正比 。 














这 样 的 基本 设计 ， 再 加 上 堆 的 新 生 代 区 域 通常 比较 小 ， 意 味 着 对 大 部 分 工作 负载 而 言 ， 新 
生 代 收 集 的 暂停 时 间 会 非常 短 。 在 一 个 内 存 为 2 GB 的 现代 JVM 上 (各 部 分 采用 默认 大 
小 )， 新 生 代 收集 典型 的 暂停 时 间 可 能 只 有 几 毫 秒 ， 而 且 经 常 少 于 10 毫秒 。 

然而 ， 老 年 代 的 收集 大 有 不 同 。 首 先 ， 老 年 代 的 大 小 默认 为 新 生 代 的 7 倍 。 光 是 这 一 点 ， 
就 会 让 一 次 整 堆 收集 预期 的 全 部 停顿 时 间 比 新 生 代 长 得 多 。 

另 一 个 关键 的 事实 是 ， 标 记 时 间 与 区 域内 的 活 对 象 的 数量 成 正比 。 老 年 代 中 的 对 象 可 能 会 
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很 长 寿 ， 所 以 可 能 会 有 更 多 的 老 对 象 在 一 次 整 堆 收集 后 仍然 存在 。 


这 种 行为 也 解释 了 Parallelold 收集 的 一 个 关键 弱点 ， 即 全 部 暂停 时 间 将 大 致 随 着 堆 的 大 小 
呈 线 性 扩展 。 随 着 堆 的 大 小 不 断 增加 ，ParallelO1ld 在 暂停 时 间 方 面 开始 变 得 很 糟糕 。 


有 些 刚 接 触 垃圾 收集 理论 的 人 ， 私 下 可 能 会 有 这 样 的 想法 ， 即 对 标记 和 清除 算法 进行 微小 
的 修改 可 能 有 助 于 缓解 全 部 暂停 时 间 ， 然 而 事实 并 非 如 此 。40 多 年 来 ， 计 算 机 科学 界 对 垃 
圾 收集 理论 已 经 进行 了 充分 的 研究 ， 目 前 还 没有 发 现 “你 就 不 能 ……” 这 样 的 改进 。 


正如 将 在 第 7 章 中 看 到 的 ， 确 实 存在 儿 球 并 发 收集 器 ， 它 们 在 运行 的 时 候 可 以 大 大 减少 暂 
停 时 间 。 然 而 ， 它 们 并 不 是 万 能 的 ， 垃 圾 收集 仍然 存在 一 些 基本 的 困难 。 


下 面 通过 一 个 例子 来 看 一 下 垃圾 收集 的 原生 实现 方法 存在 的 一 个 主要 困难 ， 让 我 们 来 考虑 
TLAB 分 配 。TLAB 机 制 可 以 大 大 提升 分 配 的 性 能 ， 但 是 对 收集 周期 并 没有 什么 帮助 。 要 
了 解 原因 ， 请 考虑 以 下 代码 : 


public static void main(String[] args) { 
int[] anInt = new int[1]; 
anInt[0] = 42; 
Runnable r = () -> { 
anInt[0]++; 
System.out.printLn("Changed: "+ anInt[0]); 
















































































}s 


new Thread(r).start(); 


} 


变量 anInt 是 一 个 数组 对 象 ， 其 中 只 包含 一 个 单个 的 int。 它 从 主线 程 持 有 的 TLAB 中 分 
配 ， 但 紧 接着 又 被 传递 给 一 个 新 线程 。 换 名 话说 ，TLAB 的 关键 属性 ， 即 它们 对 单个 线程 
来 说 是 私有 的 ， 只 有 在 分 配 时 才 成 立 。 这 个 属性 基本 上 对 象 一 旦 分 配 完 就 会 遭 到 破坏 。 

在 Java 环境 中 可 以 轻而易举 地 创建 新 线程 ， 这 是 Java 平台 的 基本 能 力 ， 也 是 非常 强大 的 
能 力 。 然 而 它 使 垃圾 收集 的 情况 变 得 更 加 复杂 ， 因 为 有 了 新 线程 ， 就 意味 着 有 了 新 的 执行 
栈 ， 而 其 中 的 每 一 个 栈 帧 都 是 GC 根 的 来 源 。 


6.6 ”分配 的 作用 


Java 的 垃圾 收集 过 程 通常 在 请 求 内 存 分 配 但 手头 没有 足够 的 空闲 内 存 来 提供 所 需 数量 时 触 
发 。 这 意味 着 垃圾 收集 周期 不 是 按照 固定 的 或 者 可 预测 的 时 间 表 发 生 的 ， 而 是 纯粹 按照 需 
求 发 生 。 
这 也 是 垃圾 收集 最 关键 的 一 个 方面 : 它 不 是 确定 性 的 ， 也 不 会 以 固定 的 节奏 发 生 。 相 反 ， 
当 堆 中 的 一 个 或 多 个 内 存 空间 基本 上 已 满 ， 无 法 进一步 创建 对 象 时 ， 就 会 触发 一 个 垃圾 收 
集 周期 。 










































































这 种 按 需 进行 的 特性 使 得 垃圾 收集 日 志 很 难 用 传统 的 时 间 序 列 分 析 方 法 来 处 
理 。 垃 圾 收集 事件 之 间 缺 乏 规律 ， 让 大 部 分 时 间 序 列 库 无 法 轻易 适应 。 
































当 垃圾 收集 发 生 时 ， 所 有 的 应 用 程序 线程 都 会 被 暂停 (因为 它们 不 能 再 创建 任何 对 象 ， 而 
且 也 不 存在 能 运行 很 长 时 间 而 不 用 生成 新 对 象 的 真实 Java 代码 ) 。JVM 会 接管 所 有 的 CPU 
核心 来 执行 垃圾 收集 ， 并 在 重新 启动 应 用 程序 线程 之 前 回收 内 存 。 

为 了 更 好 地 理解 为 什么 分 配 如 此 重要 ， 让 我 们 考虑 下 面 这 个 高 度 简化 的 案例 研究 。 堆 参数 
的 设置 情况 如 表 6-1 所 示 ， 假 设 它们 不 会 随 着 时 间 的 推移 而 改变 。 当 然 ， 一 个 真实 的 应 用 
程序 通常 会 动态 调整 堆 的 大 小 ， 但 这 个 例子 仅 作 简单 说 明之 用 。 

表 6-1: 堆 参数 设置 

堆 区 域 大 小 













































































总 体 2 GB 

老年 代 1.5 GB 

新 生 代 500 MB 

Eden 400 MB 

S1 50 MB 
”ND 

在 应 用 程序 达到 稳定 状态 之 后 ， 我 们 观察 到 以 下 垃圾 收集 指标 : 
分 配 率 100 MB/s 
新 生 代 垃圾 收集 时 间 2 ms 

整 堆 收集 时 间 100 ms 
对 象 生命 周期 200 ms 


这 表明 ，Eden 空间 会 在 4 秒 内 被 填 满 ， 所 以 在 稳定 状态 下 ， 新 生 代 收集 每 4 秒 就 会 发 生 一 
次 。Eden 空间 一 填 满 ， 就 会 触发 垃圾 收集 。Eden 空间 中 的 大 部 分 对 象 是 死 的 ， 但 是 仍然 
活着 的 对 象 都 会 被 下 散 到 一 个 Survivor 空间 中 (为 方便 讨论 ， 我 们 称 其 为 SS1)。 在 这 个 简 
单 的 模型 中 ， 因 为 对 象 的 生命 周期 是 200 毫秒 ， 所 以 在 过 去 200 毫秒 内 创建 的 任何 对 象 ， 
寿命 都 还 没有 结束 ， 所 以 它们 将 存活 下 来 。 因 此 我 们 有 : 

GCO0 @ 4s 20 MB Eden — SS1 (20 MB) 


又 过 了 4 秒 ，Eden 空间 再 次 被 填 满 ， 其 对 象 需要 继续 疏散 (这 次 是 到 SS2)。 不 过 在 这 个 
简化 的 模型 中 ， 通 过 GC0 进入 到 SS1 中 的 对 象 都 已 经 不 存在 了 ， 因 为 它们 的 生命 周期 只 
有 200 毫秒 ， 而 现在 已 经 过 去 了 4 秒 ， 所 以 所 有 在 GC0 之 前 分 配 的 对 象 都 已 经 死 了 。 我 们 
现在 有 : 

GC1 @ 8.002 s 20 MB Eden 一 SS2 (20 MB) 

换 种 说 法 ， 在 GC1 之 后 ，SS2 中 存在 的 都 是 刚 从 Eden 区 域 过 来 的 对 象 ，SS2 中 对 象 的 年 
龄 都 不 会 大 于 1。 再 继续 进行 一 次 收集 ， 模 式 应 该 就 很 清楚 了 : 

GC2 @ 12.004 s 20 MB Eden 一 SS1 (20 MB) 

这 种 理想 化 的 简单 模型 导致 了 这 样 一 种 情况 ， 即 没有 任何 对 象 能 够 晋升 到 老年 代 ， 在 整个 
运行 过 程 中 ， 老 年 代 一 直 是 空 着 的 。 当 然 ， 这 是 非常 不 现实 的 。 
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相反 ， 弱 分 代 假 说 表明 ， 对 象 的 生命 周期 将 是 某 种 分 布 ， 而 且 由 于 分 布 的 不 确定 性 ， 有 些 
对 象 最 终 会 存活 下 来 并 进入 老年 代 。 

接 下 来 看 一 个 针对 这 种 分 配 场景 的 一 个 非常 简单 的 模拟 器 。 它 分 配 的 对 象 ， 大 部 分 寿命 很 
短 ， 但 也 有 一 些 寿 命 相 当 长 。 它 有 一 组 参数 : 定义 分 配 的 x 和 y， 每 个 对 象 的 大 小 都 在 这 
两 个 值 之 间 ， 分 配 率 (mbPerSec) ;短命 对 象 的 寿命 (shortLivedMs) ;以 及 应 用 程序 应 该 
模拟 的 线程 的 数量 (nThreads)。 黑 认 值 见 如 下 的 代码 清单 : 


public cLass ModeLALLocator impLements Runnable { 


private 


private 
private 
private 
private 
private 
private 
private 
private 











volatile boolean shutdown = false; 


double chanceOfLongLived = 0.02; 

int multiplierForLongLived = 20; 

int x = 1024; 

int y = 1024; 

int mbPerSec = 50; 

int shortLivedMs = 100; 

int nThreads = 8; 

Executor exec = Executors.newFixedThreadPool(nThreads); 





省 略 了 main() 和 其 他 任何 启动 /参数 设置 代码 之 后 ，ModelAllocator 的 其 余部 分 如 下 : 


public void 


run() { 


final int mainSleep = (int) (1000.0 / mbPperSec); 


while (!shutdown) { 


for 


} 


(int i = 0; i < mbperSec; i++) { 
ModelObjectAllocation to = 

new ModelObjectAllocation(x, y, lifetime()); 
exec.execute(to); 
try { 

Thread.sleep(mainSleep); 
} catch (InterruptedException ex) { 

shutdown = true; 


} 


// 用 来 模拟 弱 分 代 假说 的 简单 函数 


// 返回 一 个 对 象 的 预期 寿命 





// 不 过 也 有 





一 般 来 说 比较 短暂 ， 
“寿命 较 长 ”的 一 个 小 概率 


public int lifetime() { 
if (Math.random() < chanceOfLongLived) { 


return multiplierForLongLived * shortLivedMs; 


} 
return shortLivedMs; 
} 
} 
分 配器 主 运行 器 (runner) 与 一 个 简单 的 模拟 对 象 (mock) 结合 ， 该 对 象 用 来 表示 应 用 程 
序 执行 的 对 象 分 配 : 





public class ModelObjectAllocation impLements Runnable { 
private final int[][] allocated; 
private final int lifeTime; 


public ModelObjectAllocation(final int x, final int y, final int liveFor) { 
allocated = new int[x][y]; 


lifeTime = liveFor; 


} 


@Override 
public void run() { 
try { 
Thread. sleep(lifeTinme); 


System.err.printLn(System 


.CurrentTimeMillis() +": "+ allocated. length); 
} catch (InterruptedException ex) { 
} 


} 


用 VisualVM 查看 时 ， 它 将 显示 简单 的 锯齿 模式 ， 我 们 经 常 在 能 高 间 


高 效 利 用 堆 的 Java 应 用 程 
序 的 内 存 行 为 中 观察 到 这 种 模式 ， 如 图 6-10 所 示 。 








| 所 optjava.ModelAllocator (pid 13538) © 





加 oveview 辆 .----- 国 Threads 息 Sampler @Profiler 国 Visual GC 
C optjava.ModelAllocator (pid 13538) 


Monitor 


V CPU Vv Memory Yv Classes ‘Vv Threads | 
Uptime: 1 min 09 sec 


Perform GC Heap Dump 
CPU x Heap | Metaspace x| 
CPU usage: 0.4% GC activity: 0.0% Size: 1,158,152,192 B Used: 528,893,736 B 
100% Max: 4,294,967,296 B 











Ae 
18:04:30 18:04:45 18:05:00 











0 MB ss | 
18:05:15 18:04:30 18:04:45 18:05:00 18:05:15 
国 CPU usage 四 GCC activity 国 Heap size 国 Used heap 
Classes x Threads x| 
Total loaded: 1,359 Shared loaded: 0 Live: 18 Daemon: 9 
Total unloaded: 0 Shared unloaded: 0 Live peak: 18 Total started: 18 
15 
1,000 
10 
500 
5 
0 0 
18:04:30 18:04:45 18:05:00 18:05:15 18:04:30 18:04:45 18:05:00 18:05:15 
国 Total loaded classes 国 Shared loaded classes 


国 Live threads 国 Daemon threads 








图 6-10: 简单 的 锯齿 模式 


第 7 章 将 对 内 存 情况 的 工具 化 和 可 视 化 进行 更 多 的 讨论 。 感 兴趣 的 读者 可 以 在 讨论 调 优 之 
前 先行 下 载 本 章 提 及 的 分 配 和 生命 周期 模拟 器 ， 并 设置 参数 以 查看 分 配 率 和 长 寿 对 象 百 分 
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比 的 作用 。 


接 下 来 将 介绍 分 配 行为 中 一 个 非常 常见 的 方面 ， 并 以 此 结束 对 分 配 的 讨论 。 在 现实 世界 
中 ,分 配 率 可 以 是 高 度 可 变 的 和 “ 突 发 性 ”的 。 对 具有 如 上 所 述 的 稳定 状态 行为 的 Java 应 
用 程序 ， 请 考虑 以 下 情形 : 


25s Steady-state allocation 100 MB/s 
ls Burst/spikeallocation 1 GB/s 
100s Back to steady-state 100 MB/s 


最 初 的 稳定 状态 的 执行 在 Eden 空间 中 分 配 了 200 MB。 没 有 长 寿 对 象 ， 所 以 这 类 内 存 的 生 
命 周 期 都 是 100 毫秒 。 接 下 来 ， 分 配 峰 值 出 现 了 。 分 配 Eden 空间 中 另外 的 200 MB 只 需 
0.2 秒 ， 其 中 100 MB 的 对 象 还 没有 达到 100 毫秒 的 年 龄 国 值 。 存 活 对 象 所 需 的 空间 要 大 于 
Survivor 空间 ， 所 以 JVM 别 无 选择 ， 只 能 让 这 些 对 象 直接 晋升 到 老年 代 。 所 以 我 们 得 到 : 


GC0 @ 2.2 s 100 MB Eden 一 Tenured (100 MB) 


分 配 率 的 急剧 增加 产生 了 100 MB 的 存活 对 象 。 不 过 要 注意 的 是 ， 在 这 个 模型 中 ， 所 有 的 
“存活 对 象 ”实际 上 寿命 都 不 长 ， 而 且 很 快 就 会 变 成 死 对 象 ， 它 们 会 让 老年 代 变 得 比较 杂 
乱 。 直 到 下 一 次 发 生 整 堆 收集 时 它们 才 会 被 回收 。 

再 继续 进行 几 次 收集 ， 模 式 就 清晰 了 : 

GC1 @ 2.602s 200 MB Eden 一 Tenured (300 MB) 

GC2 @ 3.004s 200 MB Eden 一 Tenured (500 MB) 

GC2 @ 7.006s 20 MB Eden 一 SS1 (20 MB) [+ Tenured (500 MB)] 


请 注意 ， 如 前 所 述 ， 垃 圾 收集 器 根据 需要 运行 ， 而 不 是 定期 运行 。 分 配 率 越 大 ， 垃 圾 收集 
就 越 频 繁 。 如 果 分 配 率 过 高 ， 那 么 对 象 最 终 会 被 强制 提前 晋升 。 


这 种 现象 被 称 为 过 早 晋 升 (premature promotion) ， 它 是 垃圾 收集 器 最 重要 的 间接 效应 之 
一 ， 也 是 许多 调 优 练习 的 一 个 起 点 ， 我 们 将 在 下 一 章 介绍 。 


6.7 ”小结 


自 平 台 诞 生 以 来 ， 垃 圾 收集 一 直 是 Java 社区 内 讨论 的 热门 话题 。 本 章 介绍 了 性 能 工程 师 需 
要 了 解 的 关键 概念 ， 以 便 有 效 地 与 JVM 的 垃圾 收集 子 系统 一 起 工作 。 这 些 概念 包括 : 


。 标记 和 清除 收集 ， 

。 对 象 在 HotSpot 内 部 的 运行 时 表示 ; 

。 弱 分 代 假说 ，; 

。 HotSpot 的 内 存 子 系统 实例 ， 

。 并 行 收集 器 ，; 

。 分 配 及 其 核心 作用 。 

下 一 章 将 讨论 垃圾 收集 的 调 优 、 监 控 和 分 析 。 有 些 主题 在 本 章 已 经 出 现 过 ， 特 别 是 分 配 ， 
以 及 过 早 晋升 等 特殊 效应 ， 这 些 内 容 对 于 接 下 来 的 目标 和 主题 也 特别 重要 ， 经 常 回来 参考 
本 章 可 能 会 很 有 帮助 。 
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第 7 章 


垃圾 收集 高 级 话题 





上 一 章 介 绍 了 Java 垃圾 收集 的 基本 理论 。 以 此 为 起 点 ， 本 章 将 进一步 研究 现代 Java 垃圾 
收集 器 的 理论 。 这 个 领域 有 很 多 不 可 避免 的 权衡 可 以 指导 工程 师 如 何 选择 收集 器 。 

首先 ， 本 章 将 介绍 并 深入 了 解 HotSpot JVM 提供 的 其 他 收集 器 ， 其 中 包括 停顿 时 间 超 短 、 
通常 为 并 发 的 收集 器 (CMS) 和 现代 通用 收集 器 (G1)。 

此 外 ， 还 将 考虑 一 些 比较 少见 的 收集 器 ， 包 括 : 

。 Shenandoah 

。 C4 

。 均衡 (balanced) 收集 器 

。 遗留 的 HotSpot 收集 器 

并 非 所 有 这 些 收集 器 都 在 HotSpot 虚拟 机 中 使 用 ， 我 们 还 将 讨论 另外 两 个 虚拟 机 的 收集 器 : 
IBM J9 (IBM 的 一 款 JVM， 之 前 是 闭 源 的 ， 目 前 正在 逐步 开源 ) 和 Azul Zing (一 款 专 有 
的 JVM) ， 我 们 在 2.6 节 曾 介绍 过 。 


全 二 口 
7.1 权衡 与 可 插 拔 的 收集 器 
就 Java 平台 而 言 ， 有 一 点 可 能 初学 者 未 必 能 马上 意识 到 ， 即 尽管 Java 有 垃圾 收集 器 ， 但 
是 语言 和 虚拟 机 规范 都 没有 说 明 应 该 如 何 实现 垃圾 收集 。 事 实 上 ， 曾 经 有 一 些 Java 实现 
(例如 Lego Mindstorms) 根本 没有 实现 任何 类 型 的 垃圾 收集 ! ” 
























































注 1: 在 这 样 的 系统 中 编程 是 非常 困难 的 ， 因 为 创建 的 每 一 个 对 象 都 必须 复 用 ， 任 何 超出 作用 域 的 对 象 事实 
上 都 会 导致 内 存 泄 漏 。 
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在 Sun (现在 是 Oracle) 的 环境 中 ， 垃 圾 收集 子 系统 被 视 为 一 个 可 揪 拔 的 子 系统 。 这 意 
着 同一 个 Java 程序 可 以 使 用 不 同 的 垃圾 收集 器 来 执行 ， 而 不 改变 程序 的 语义 ， 尽 管 它 的 性 
能 可 能 会 根据 使 用 的 收集 器 而 有 很 大 的 不 同 。 

使 用 可 插 拔 的 收集 器 的 主要 原因 是 垃圾 收集 是 一 种 通用 的 计算 技术 。 特 别 是 ， 同 样 的 算法 
未 必 适 用 于 每 个 工作 负载 。 由 于 人 们 关注 点 不 同 ， 有 些 还 是 相互 冲突 的 ， 因 此 垃圾 收集 算 
法 代表 了 一 种 妥协 或 权衡 。 


没有 一 种 通用 的 垃圾 收集 算法 可 以 同时 针对 所 有 垃圾 收集 问题 进行 优化 。 



































在 选择 垃圾 收集 器 时 ， 开 发 人 员 通 常 需要 性 虑 以 下 主要 问题 : 


。 暂停 时 间 (也 叫 暂停 长 度 或 持续 时 间 ) ， 
。 吞吐 量 (垃圾 收集 时 间 占 应 用 程序 运行 时 间 的 百分比 ); 
。 暂停 频率 (收集 器 需要 停止 应 用 程序 的 频率 ) ， 

。 回收 效率 (一 个 垃圾 收集 工作 周期 内 可 收集 的 垃圾 量 ) ; 
。 暂停 的 一 致 性 (所 有 的 暂停 长 度 是 否 大 致 相同 )。 


其 中 ， 和 暂停 时 间 往 往 会 引起 过 多 的 关注 。 尽 管 暂停 时 间 对 许多 应 用 程序 确实 很 重要 ， 但 也 
不 应 该 孤立 地 考虑 它 。 


对 许多 工作 负载 来 说 ， 暂 停 时 间 并 不 是 一 个 有 效 或 有 用 的 性 能 特性 。 





a 








例如 ， 高 度 并 行 的 批 处 理 或 大 数据 应 用 程序 可 能 更 关注 吞吐 量 ， 而 不 是 暂停 时 间 的 长 短 。 
对 于 很 多 批 处 理 作 业 来 说 ， 和 暂停 时 间 就 算 有 几 十 秒 也 没有 多 大 关系 。 因 此 ， 与 不 计 成 本 地 
降低 暂停 时 间 的 算法 相 比 ， 应 该 首选 CPU 效率 和 吞吐 量 更 高 的 垃圾 收集 算法 。 


性 能 工程 师 还 需要 注意 的 是 ， 在 芳 虑 收集 器 的 选择 时 ， 有 时 还 会 有 一 些 其 他 的 权衡 和 顾 
虑 。 在 HotSpot 的 情况 下 ， 选 择 还 受制 于 可 用 的 收集 器 。 


截至 Java 10， 在 Oracle/OpenJDK 内 有 3 种 主流 的 收集 器 供 一 般 性 生产 环境 使 用 。 我 们 已 
经 见 过 并 行 〈 又 称 吞吐 量 ) 收集 器 ， 从 理论 和 算法 的 角度 看 它们 是 最 容易 理解 的 。 本 章 会 
介绍 另外 两 种 主流 的 收集 器 ， 并 解释 它们 与 并 行 垃圾 收集 的 区 别 。 

在 本 章 最 后 ， 从 7.5 市 开始 到 后 面 几 市 ， 我 们 还 将 认识 一 些 其 他 可 用 的 收集 器 ， 但 请 注意 ， 
并 不 是 所 有 这 些 收集 器 都 推荐 用 于 生产 环境 ， 有 些 现在 已 经 废弃 了 。 本 章 还 将 简单 讨论 在 
非 HotSpot JVM 中 可 用 的 收集 器 。 
























































7.2 ”并 发 垃圾 收集 理论 

在 专门 的 系统 中 ， 例 如 图 形 或 动画 显示 系统 ， 通 常 有 一 个 固定 的 帧 率 ， 这 为 执行 垃圾 收集 

提供 了 一 个 有 规律 的 、 固 定 的 机 会 。 

然而 ， 通 用 的 垃圾 收集 器 并 没有 这 样 的 领域 知识 来 提高 暂停 时 间 的 确定 性 。 更 为 糟糕 的 是 ， 

不 确定 性 是 由 分 配 行为 直接 导致 的 ， 而 很 多 使 用 Java 的 系统 显示 出 高 度 可 变 的 分 配 行为 。 
这 种 安排 的 次 要 缺点 是 本 身 的 计算 被 延迟 了 ; 其 主要 缺点 是 这 些 垃圾 收集 穿 播 而 
来 的 不 确定 性 。? 





























一 一 Edsger Dijkstra 

现代 垃圾 收集 理论 的 出 发 点 就 是 试图 解决 Dijkstra 所 提出 的 问题 ， 即 STW 暂停 的 不 确定 性 
(无 论 是 持续 时 间 还 是 频率 ) 是 使 用 垃圾 收集 技术 的 主要 烦恼。 
一 种 解决 方法 是 使 用 一 个 并 发 至少 部 分 并 发 ， 或 大 部 分 并 发 ) 的 收集 器 ， 在 应 用 程序 线 
程 运行 的 同时 做 一 些 收集 所 需 的 工作 ， 以 减少 暂停 时 间 。 这 不 可 避免 地 降低 了 用 于 应 用 程 
序 实际 工作 的 计算 能 力 ， 同 时 也 使 执行 收集 所 需 的 代码 复杂 化 了 。 

不 过 在 讨论 并 发 收集 器 之 前 ， 还 需要 介绍 一 个 重要 的 垃圾 收集 术语 和 技术 ， 因 为 它 对 理解 
现代 垃圾 收集 器 的 性 质 和 行为 至 关 重 要 。 
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7.2.1 JVM 安 全 点 
为 了 执行 STW 垃圾 收集 ， 比 如 HotSpot 的 并 行 收集 器 所 执行 的 那些 ， 必 须 停 止 所 有 的 应 
用 程序 线程 。 看 上 去 我 们 在 反复 说 同样 的 事情 ， 但 直到 现在 我 们 还 没有 讨论 JVM 到 底 是 
如 何 实现 这 一 点 的 。 
实际 上 ，JVM 并 不 是 一 个 完全 抢占 式 的 多 线程 环境 。 
一 一 一 个 秘密 


这 并 不 意味 着 它 是 一 个 纯粹 的 合作 式 环境 ， 恰 恰 相 反 ， 操 作 系 统 仍然 可 以 在 任何 时 候 抢 占 
线程 (从 某 个 CPU 核心 上 移 除 一 个 线程 )。 例 如 当 一 个 线程 用 尽 了 其 时 间 片 ， 或 将 自己 放 
入 wait() 中 时 ， 就 会 出 现 这 种 情况 。 

除了 这 个 核心 的 操作 系统 功能 外 ，JVM 还 需要 执行 协调 操作 。 为 了 实现 这 一 点 ， 运 行 时 就 
要 求 每 个 应 用 程序 线程 都 有 称 为 安全 点 (safepoint) 的 特殊 执行 点 ， 其 中 线程 的 内 部 数据 
结构 处 于 已 知 的 良好 状态 。 此 时 线程 能 被 挂 起 ， 以 执行 协调 操作 。 


在 STW 垃圾 收集 (经 典 示 例 ) 和 线程 同步 中 可 以 看 到 安全 点 的 作用 ， 不 过 
在 其 他 场景 中 也 可 以 看 到 。 
























































注 2: 这 句 话 出 自 7.2.2 市 提 到 的 有 关 三 色 标 记 的 论文 。 一 一 译 者 注 
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要 理解 安全 点 的 意义 ， 可 以 考虑 一 个 完全 STW 垃圾 收集 器 的 情况 。 为 了 使 之 运行 ， 它 需 
要 一 个 稳定 的 对 象 图 。 这 意味 着 所 有 的 应 用 程序 线程 都 必须 暂停 ， 因 为 垃圾 收集 线程 无 法 
要 求 操作 系统 对 应 用 程序 线程 强制 执行 这 个 要 求 ， 所 以 必须 有 应 用 程序 线程 〈 它 作为 JVM 
进程 的 一 部 分 执行 ) 的 配合 才能 实现 。JVM 对 安全 点 的 实现 方式 受 限于 以 下 两 个 主要 规则 : 
。 JVM 不 能 强制 一 个 线程 进入 安全 点 状态 ; 
。 JVM 可 以 阻止 一 个 线程 离开 安全 点 状态 。 


这 意味 着 当 需 要 安全 点 时 ，JVM 解释 器 的 实现 必须 包含 在 屏障 (barrier) 处 释放 (yield) 
的 代码 。 对 于 JIT 编译 的 方法 ， 必 须 在 生成 的 机 器 码 中 插入 等 效 的 屏障 。 到 达 安 全 点 的 一 
般 情 况 是 以 下 这 样 的 。 

1. JVM 设置 一 个 全 局 的 “安全 点 时 间 ”(time to safepoint) 标志 。 

2. 单个 的 应 用 程序 线程 轮 询 并 查看 该 标志 已 设置 。 

3. 暂停 并 等 待 被 再 次 唤醒 。 

当 这 个 标志 被 设置 后 ， 所 有 的 应 用 程序 线程 都 必须 停止 ， 而 且 停 得 快 的 线程 必须 等 待 停 得 
慢 的 ， 这 个 时 间 可 能 不 会 被 完全 统计 到 暂停 时 间 中 。 

普通 的 应 用 程序 线程 使 用 这 种 轮 询 机 制 : 在 解释 器 中 ， 它 们 总 是 会 在 执行 任何 两 个 字 节 码 
之 间 进 行 检查 。 如 果 是 编译 后 的 代码 ， 最 常见 的 一 种 情况 是 JIT 编译 器 在 退出 编译 方法 的 
地 方 插入 一 个 安全 点 轮 询 ， 另 一 种 情况 是 循环 分 支 向 后 跳 转 时 〈 比 如 ， 回 到 循环 的 顶部 ) 
插入 一 个 安全 点 轮 询 。 


一 个 线程 可 能 要 花 很 长 时 间 才 到 安全 点 ， 甚 至 理论 上 可 能 永远 不 会 停止 ， 但 这 是 一 种 病态 
的 情况 ， 一 定 是 有 意 而 为 之 的 。 


所 有 的 线程 都 必须 在 STW 阶段 开始 之 前 完全 停止 ， 这 个 想法 类 似 于 使 用 锁 
存 器 ， 比 如 用 java.utilite.concurrent 库 中 的 CountDownLatch 实现 的 锁 存 
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直 得 一 提 的 是 安全 点 条 件 的 一 些 特 殊 情 况 。 在 如 下 情况 下 ， 一 个 线程 会 自动 处 于 安全 
状态 : 

。 阻塞 在 一 个 管 程 (monitor) 上 ; 

。 正在 执行 JNI 代码。 

在 如 下 情况 下 ， 一 个 线程 未 必 处 于 安全 点 状态 : 


在 执行 字 节 码 的 过 程 中 (解释 模式 ) ; 
已 经 被 操作 系统 中 断 。 


肖 后 还 会 再 讲 到 安全 点 机 制 ， 因 为 它 是 JVM 内 部 运作 的 关键 一 环 。 


7.2.2 三 色 标 记 
Dijkstra 和 Lamport 在 1978 年 发 表 的 论文 中 描述 了 三 色 标 记 算 法 ， 该 论文 对 证 明 并 发 算法 
和 垃圾 收集 的 正确 性 具有 里 程 碑 式 的 意义 ， 其 中 所 描述 的 基本 算法 至 今 仍 是 垃圾 收集 理论 








= 
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的 重要 组 成 部 分 。” 
三 色 标记 算法 的 工作 原理 如 下 : 


。 垃圾 收集 根 标记 为 灰色 ， 

。 所 有 其 他 对 象 都 标记 为 白色 ， 

。 有 一 个 标记 线程 移动 到 一 个 随机 的 灰色 节点 ; 

。 如 果 该 节点 有 任何 白色 的 子 节点 ， 那 标记 线程 首先 会 将 这 样 的 子 节点 标记 为 灰色 ， 然 后 
将 该 节点 标记 为 黑色 ， 

。 这 个 过 程 重复 进行 直到 再 也 没有 灰色 节点 

。 所 有 标记 为 黑色 的 对 象 ， 都 已 被 证 明 是 可 达 的 ， 并 且 必 须 保 持 存 活 状态 ，; 
白色 节点 符合 收集 条 件 ， 对 应 不 再 可 达 的 对 象 。 


虽然 有 些 复杂 ， 但 这 就 是 算法 的 基本 形式 ， 示 例如 图 7-1 所 示 。 





2 兴国 国 
办 国 转 














图 7-1: 三 色 标 记 


并 发 收集 经 常 使 用 一 种 叫 作 原始 快照 (snapshot at the beginning，SATB) 的 技术 。 这 意味 
着 如 果 对 象 在 收集 周期 开始 时 是 可 达 的 ， 或 者 那 时 已 经 分 配 ， 则 收集 器 会 将 其 视 为 活 的 。 
这 就 给 算法 增加 了 一 些小 麻烦 。 比 如 ， 当 Mutator 线程 需要 创建 新 对 象 时 ， 如 果 此 时 垃圾 
收集 正在 运行 ， 那 么 这 些 对 象 需 要 标记 为 黑色 ， 如 果 没 有 ， 则 它们 需要 标记 为 白色 。 

三 色 标 记 算 法 还 需要 多 做 一 些 工 作 ， 以 确保 由 正在 运行 的 应 用 程序 线程 引入 的 修改 不 会 
导致 活 对 象 被 收集 。 这 是 因为 在 并 发 收集 器 中 ， 标 记 线 程 在 执行 三 色 算法 的 同时 ， 应 用 
(Mutator) 线程 正在 改变 对 象 图 。 

考虑 这 样 的 情况 : 一 个 对 象 已 经 被 标记 线程 标记 为 黑色 ， 然 后 又 被 Mutator 更 新 ， 指 向 了 
一 个 白色 的 对 象 ， 如 图 7-2 所 示 。 








注 3: Edsger Dijkstra，Leslie Lamport，A. J. Martin, C. S$. Scholten and E. F. M. Steffens, “On-the-Fly Garbage 
Collection: An Exercise in Cooperation,” Communications of the ACM 21 (1978) ,966-975。 
注 4: Mutator 线程 和 Collector 线程 相对 ， 一 般 指 的 是 会 修改 内 存 状态 的 用 户 线 程 。 一 一 译 者 注 








垃圾 收集 高 级 话题 | 113 





2 兴国 国 
2 回力 
C 














图 7-2: Mutator 线程 可 能 导致 三 色 标记 失效 


如 果 从 灰色 对 象 指向 新 的 白色 对 象 的 引用 现在 都 被 删除 了 ， 那 就 会 出 现 这 样 一 种 情况 ， 即 
这 个 白色 对 象 应 该 仍然 是 可 达 的 ， 但 是 它 会 被 删除 ， 因 为 根据 算法 的 规则 ， 这 个 对 象 不 会 
被 找到 。 


这 个 问题 可 以 通过 几 种 不 同 的 方式 来 解决 。 比 如 我 们 可 以 将 黑色 对 象 的 颜色 改 回 灰色 ， 在 
Mutator 线程 处 理 更 新 时 ， 将 其 加 入 到 需要 处 理 的 节点 集合 中 。 
该 方法 使 用 了 一 个 “ 写 屏 障 ” 来 进行 更 新 ， 而 且 它 还 有 一 个 很 好 的 算法 特性 ， 那 就 是 在 整 
个 标记 周期 中 能 保持 三 色 不 变性 (tri-color invariant)。 

在 并 发 标记 期 间 ， 任 何 黑色 对 象 节点 都 不 能 持 有 指向 白色 对 象 节点 的 引用 。 

一 一 三 色 不 变性 

另 一 种 方法 是 使 用 一 个 队列 ， 保 存 所 有 可 能 会 破坏 三 色 不 变性 的 修改 ， 然 后 在 主 阶段 结束 
后 运行 一 个 “修正 ”阶段 。 不 同 的 收集 器 可 以 根据 性 能 或 者 所 需 的 加 锁 的 数量 等 标准 ， 用 
不 同方 式 来 解决 三 色 标 记 的 这 个 问题 。 
下 一 节 将 介绍 低 延 迟 的 收集 器 一 一 CMS。 虽 然 CMS 的 适用 范围 有 限 ， 但 我 们 会 在 其 他 收 
集 器 之 前 先 介绍 它 。 这 是 因为 开发 人 员 往 往 意识 不 到 ， 垃 圾 收集 调 优 需要 在 多 大 程度 上 进 
行 权 衡 和 妥协 。 
通过 先 考 虑 CMS ， 可 以 揭示 性 能 工程 师 在 考虑 垃圾 收集 时 应 该 广 意 的 一 些 实际 问题 。 和 希望 
这 样 做 能 让 我 们 更 多 的 是 基于 证 据 进 行 调 优 ， 基 于 固有 的 一 些 权衡 来 选择 收集 器 ， 而 不 是 
按照 坊间 传说 调 优 。 


7.3 CMS 


CMS 收集 器 是 专 为 老年 代 空间 设计 的 一 个 延迟 极 低 的 收集 器 ， 它 通常 会 与 一 个 稍微 修改 过 
的 、 用 于 Young GC 的 并 行 收 集 器 〈 叫 作 ParNew， 而 不 是 Parallel GC) 配对 使 用 。 
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CMS 会 在 应 用 线程 仍 在 运行 的 时 候 尽 量 多 做 一 些 工 作 ， 以 便 最 大 化 地 减少 暂停 时 间 。 它 使 
用 的 标记 算法 是 三 色 标 记 ， 当 然 这 就 意味 着 在 收集 器 正在 扫描 堆 的 同时 ， 对 象 图 可 能 会 被 
修改 。 因 此 ，CMS 必须 对 其 记录 进行 修正 ， 以 避免 破坏 垃圾 收集 器 的 第 二 条 规则 ， 也 就 是 
把 仍然 活着 的 对 象 收集 了 。 

这 就 导致 了 与 并 行 收集 器 相 比 ，CMS 所 需 的 阶段 更 为 复杂 。 这 些 阶 段 如 下 。 

.初始 标记 (initial mark) (STW) 

.并 发 标记 (concurrent mark) 

. 并 发 预 清理 (concurrent preclean ) 

重新 标记 (remark) (STW) 

并 发 清除 

并 发 重 置 ( 
垃圾 收集 在 大 多 数 阶段 是 与 应 用 程序 线程 同时 运行 的 ， 但 是 在 初始 标记 和 重新 标记 这 两 个 
阶段 中 ， 所 有 应 用 程序 线程 都 必须 停止 。 总 的 效果 应 该 是 用 两 个 通常 来 说 时 间 比 较 短 的 
STW 和 暂停 来 代 禁 一 次 长 时 间 的 STW 暂停 。 


初始 标记 阶段 的 目的 是 为 该 区 域内 的 垃圾 收集 提供 一 个 稳定 的 起 点 集合 ， 这 些 起 点 被 称 关 
内 部 指针 ， 相 当 于 用 于 收集 周期 的 垃圾 收集 根 。 这 种 方法 的 优点 是 它 使 得 标记 阶段 可 以 专 
广 于 单个 垃圾 收集 池 ， 而 不 必 考 虑 其 他 内 存 区 域 。 

初始 标记 阶段 结束 后 ， 并 发 标记 阶段 开始 。 本 质 上 就 是 在 堆 上 运行 三 色 标 记 算法 ， 记 录 以 
后 可 能 需要 修正 的 任何 修改 。 
并 发 预 清理 阶段 似乎 试图 尽 可 能 地 缩短 会 造成 STW 的 重新 标记 阶段 的 长 度 。 重 新 标记 阶 
段 使 用 卡 表 来 修正 可 能 会 在 并 发 标记 阶段 受 Mutator 线程 影响 的 标记 。 


对 大 多 数 工 作 负 载 而 言 ， 使 用 CMS 可 以 观测 到 如 下 影响 : 


。 应 用 程序 线程 不 会 停顿 很 久 ， 

。 一 次 Full GC 周期 需要 更 多 时 间 〈 以 挂钟 时 间 计算 ) ， 
。 当 CMS 的 垃圾 收集 周期 运行 的 时 候 ， 应 用 程序 的 否 吐 量 会 降低 ， 
。 垃圾 收集 会 使 用 更 多 的 内 存 来 记录 对 象 信息 ， 

。 整体 来 看 ， 执 行 垃 圾 收集 需要 更 多 的 CPU 时 间 ， 

。 CMS 不 会 对 堆 进 行 压缩 ， 所 以 老年 代 的 碎片 会 越 来 越 多 。 


细心 的 读者 会 注意 到 ， 并 不 是 所 有 这 些 影响 都 是 正面 的 。 请 记 住 ， 垃 圾 收集 并 没有 什么 
良 方 ， 只 有 针对 工程 师 正在 调 优 的 具体 工作 负载 所 做 出 的 一 系列 适当 (或 可 以 接受 ) 的 
选择 。 


7.3.1 CMS 是 如 何 工 作 的 


令 人 许 异 的 是 ，CMS 最 常 被 忽视 的 一 个 方面 是 它 的 巨大 优势 ， 它 在 大 多 数 时 候 是 与 应 用 程 
序 线程 并 发 运行 的 。CMS 会 默认 使 用 一 半 的 可 用 线程 来 执行 垃圾 收集 的 并 发 阶段 ， 并 将 
另 一 半 留 给 应 用 线程 来 执行 Java 代码 ， 而 这 就 不 可 避免 地 会 涉及 分 配 新 对 象 。 听 上 去 很 简 
单 ， 但 它 有 一 个 直接 后 果 ， 即 如 果 Eden 区 在 CMS 运行 时 被 填 满 了 ， 那 会 发 生 什么 ? 














concurrent sweep) 


ww 


concurrent reset) 
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答案 并 不 令 人 吃惊 ， 因 为 应 用 程序 线程 无 法 继续 ， 所 以 它们 会 暂停 ， 并 且 在 CMS 运行 时 
触发 一 次 会 导致 STW 的 新 生 代 收集 (Young GC)。 这 次 Young GC 运行 的 时 间 通 常会 比 并 
行 收集 器 长 ， 因 为 只 有 一 半 的 CPU 核心 可 用 于 Young GC， 另 一 半 还 在 运行 CMS。 


在 Young GC 结束 时 ， 通 常 有 些 对 象 会 有 资格 晋升 到 Tenured 区 。 因 为 这 些 对 象 需要 在 
CMS 仍 在 运行 的 时 候 移动 到 Tenured 区 ， 所 以 两 个 收集 器 之 间 需 要 做 一 些 协调 工作 。 这 就 
是 CMS 需要 一 个 略 有 不 同 的 新 生 代 收集 器 的 原因 。 


情况 下 ，Young GC 只 会 把 很 少量 的 对 象 晋 升 到 Tenured 区 ， 而 CMS 老年 代 收 集 也 能 
完成 ， 释 放 Tenured 区 的 空间 。 之 后 应 用 程序 回归 正常 处 理 ， 所 有 的 CPU 核心 也 都 可 
Wi 


但 是 ， 在 分 配 率 非常 高 时 ， 可 能 在 Young GC 中 导致 过 早 晋 升 (在 6.6 节 的 最 后 讨论 过 ) 。 
这 会 引发 一 种 情况 ， 即 Young GC 有 太 多 对 象 要 晋升 到 Tenured 区 的 可 用 空间 中 ， 如 图 7-3 
所 示 。 
































Survivor Tenured 




















7-3: 分 配 压力 下 的 并 发 模式 失败 


这 种 情况 被 称 为 并 发 模式 失败 (concurrent mode failure，CMF)， 除 了 回 退 到 使 用 会 造成 
STW 的 Parallelold， 此 时 JVM 别 无 选择 。 实 际 上 ,分 配 压 力 如 此 之 大 ， 以 致 在 所 有 的 
“净空 间 ” 被 新 亚 升 的 对 象 填 满 之 前 ，CMS 没有 时 间 完 成 老年 代 的 处 理 。 
为 了 避免 频繁 出 现 并 发 模式 失败 ，CMS 需要 在 Tenured 区 完全 填 满 之 前 启动 一 次 收集 。 至 
于 在 Tenured 堆 的 占用 达到 何 种 水 平时 CMS 将 会 启动 ， 可 以 通过 观察 堆 的 行为 来 控制 。 它 
可 能 会 受到 开关 的 影响 ， 初 始 值 默认 为 Tenured 区 的 75%。 


堆 的 碎片 化 也 会 导致 并 发 模式 失败 。 与 Parallelold 不 同 ，CMS 在 运行 过 程 中 不 会 对 
| 区 进行 压缩 。 这 意味 着 在 CMS 运行 完成 后 ，Tenured 区 中 的 空 亲 空间 并 不 是 一 个 
连续 的 块 ， 晋 升 而 来 的 对 象 必 须 被 填充 到 现 有 对 象 之 间 的 空隙 中 。 


在 某 一 时 刻 ，Young GC 可 能 会 遇 到 这 样 一 种 情况 : 由 于 Tenured 区 缺乏 足够 的 连续 空间 来 

















复制 对 象 ， 因 此 对 象 无 法 晋升 过 去 ， 如 图 7-4 所 示 。 








Survivor Tenured 























7-4: 碎片 化 导致 的 并 发 模式 失败 


这 就 是 由 扒 的 碎片 化 引起 的 并 发 模式 失败 ， 和 之 前 一 样 ， 唯 一 的 解决 办 法 是 回 退 到 使 用 
ParallelOld (这 是 压缩 的 ) 进行 一 次 Full GC， 从 而 释放 出 足够 的 连续 空间 以 支持 对 象 晋升 。 
无 论 是 堆 碎片 化 ， 还 是 Young GC 的 速度 超过 CMS ， 需 要 回 退 到 完全 STW 的 ParallelOld 
收集 对 应 用 程序 而 言 都 是 重大 事件 。 事 实 上， 为 避免 遭受 CMEF 而 对 使 用 CMS 的 低 延 迟 应 
用 程序 进行 调 优 本 身 就 是 一 个 重要 的 课题 。 

在 内 部 ，CMS 使 用 了 一 个 内 存 块 的 空闲 列表 来 管理 可 用 内 存 。 在 最 后 的 并 发 请 除 阶 段 ， 连 
续 的 空闲 块 将 被 sweeper 线程 合并 。 这 是 为 了 提供 更 大 的 空闲 空间 块 ， 以 避免 由 碎片 化 造 
成 的 CMEF。 

然而 ，sweeper 会 与 mutator 并 发 运行 。 因 此 ， 除 非 sweeper 和 分 配器 线程 正确 同步 ， 否 则 
刚 分 配 的 块 可 能 会 被 错误 地 清除 掉 。 为 了 防止 出 现 这 种 情况 ，sweeper 在 清扫 过 程 中 会 锁 
住 空闲 列表 。 


7.3.2 用 于 CMS 的 基本 JVM 标 志 
CMS 收集 器 可 用 以 下 标志 开启 : 

-XX:+UseConcMarkSweepGC 
在 现代 版 本 的 HotSpot 上 ， 这 个 标志 也 会 激活 ParNewGC (与 并 行 新 生 代 收集 器 略 有 不 同 的 
变种 )。 
总 的 来 说 ，CMS 提供 了 大 量 可 以 调整 的 标志 (超过 60 个 )。 有 时 进行 基准 测试 很 有 吸引 
力 ， 因 为 它 试 图 通过 仔细 调整 CMS 提供 的 不 同 选 项 来 优化 性 能 。 千 万 要 抵制 这 种 诱惑 ， 
因为 在 大 部 分 情况 下 ， 这 实际 上 是 “忽略 大 局 ”或 “按照 坊间 传说 调 优 ”这 些 反 模 式 的 伪 
装 (参见 4.4 节 )。 
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我 们 在 8.4 节 会 详细 介绍 CMS 的 调 优 。 


7.4 GI1 


G1 是 一 款 与 并 行 收集 器 或 CMS 的 风格 都 非常 不 同 的 收集 器 。 它 最 初 以 高 度 实验 性 和 不 稳 
定 的 状态 出 现 于 Java 6 中 ， 但 在 Java 7 的 整个 开发 过 程 中 经 过 了 大 量 重 写 ， 直 到 Java 8u40 
的 发 布 才 真正 成 为 稳定 的 、 可 供 生产 使 用 的 版 本 。 


无 论 考虑 什么 类 型 的 工作 负载 ， 如 果 想 使 用 G1， 不 建议 采用 任何 Java 8u40 
之 前 的 版 本 。 














G1 最 初 是 打算 成 为 一 款 替 代用 的 低 延 迟 收 集 器 ， 有 具有 如 下 特性 。 


。 调 优 比 CMS 更 容易 ; 

不 容易 受到 过 早 晋 升 的 影响 ; 

行为 在 大 堆 上 能 够 更 好 地 扩展 〈 特 别 是 暂停 时 间 ) ; 

能 够 消除 (或 者 能 极 大 减少 回 退 到 ) 完全 STW 的 收集 。 
然而 ， 随 着 时 间 的 推移 ，G1 逐渐 被 认为 是 一 款 通用 的 收集 器 ， 在 更 大 的 堆 上 有 更 少 的 暂 
停 时 间 ( 越 来 越 多 的 人 认为 这 是 “新 常态 ”)。 
不 管 对 最 终 用 户 的 影响 如 何 ，Oracle 都 坚持 让 G1 取代 并 行 收集 器 ， 成 为 
Java 9 中 的 默认 收集 器 。 因 此 ， 性 能 分 析 人 员 需 要 充分 理解 G1， 并且 任何 要 
从 Java 8 迁移 到 Java 9 的 应 用 程序 都 需要 恰当 地 进行 重新 测试 ， 这 应 该 是 迁 
移 工作 的 一 部 分 。 















































G1 收集 器 在 设计 上 重新 思考 了 到 目前 为 止 我 们 都 在 用 的 分 代 的 概念 。 与 并 行 或 CMS 收集 
器 不 同 ，G1 中 的 “ 代 ” 没 有 专用 的 连续 内 存 空 间 。 此 外 ， 它 也 没有 使 用 半空 间 堆 布 局 。 


7.4.1 G1 堆 布 局 和 区 域 

G1 堆 基 于 区 域 (region) 的 概念 。 这 些 区 域 的 大 小 默认 为 1 MB (在 更 大 的 堆 上 会 更 大 )。 
区 域 的 使 用 支持 非 连续 的 分 代 ， 从 而 使 收集 器 可 以 不 需要 在 每 次 运行 时 收集 所 有 垃圾 。 
整体 的 G1 堆 在 内 存 中 仍然 是 连续 的 ， 只 是 组 成 每 一 代 的 内 存 不 必 再 是 连 
续 的 。 





























G1 堆 基 于 区 域 的 布局 如 图 7-5 所 示 。 





























7-5: G1 的 区 域 

G1 的 算法 支持 区 域 的 大 小 为 1、2、4、8、16、32 或 64 MB 中 的 某 个 值 。 默 认 情况 下 ， 它 期 
望 堆 中 区 域 的 数量 在 2048 到 4095 之 间 ， 如 果 不 在 ， 它 会 调整 区 域 的 大 小 来 实现 这 个 目标 。 
要 计算 区 域 大 小 ， 可 以 计算 <Heap size> / 2048 这 个 值 ， 并 将 结果 取 整 数 ， 选 择 离 它 最 近 
的 所 允许 的 区 域 大 小 。 区 域 的 数量 可 以 这 样 计算 : 


Number of regions = <Heap size> / <region size> 


照例 ， 可 以 通过 运行 时 开关 来 修改 这 个 值 。 


7.4.2 ”G1 算法 设计 

从 上 层 看 这 款 收 集 器 ， 可 以 得 到 以 下 信息 : 

。 G1 使 用 了 一 个 并 发 标记 阶段 ; 

。 G1 是 一 款 疏 散 收集 器 ， 

。 G1 提供 了 “统计 型 压缩 ”(statistical compaction ) 。 

在 预 热 的 同时 ， 收 集 器 会 跟踪 并 统计 每 个 垃圾 收集 执行 周期 有 和 多少“ 典型 ”的 区 域 可 被 收 
集 。 如 果 能 收集 足够 的 内 存 以 平衡 自 上 次 垃圾 收集 以 来 分 配 的 新 对 象 ， 那 G1 就 不 会 因为 
分 配 而 失败 。 

TLAB 分 配 、 玻 散 到 Survivor 空间 以 及 晋升 到 老年 代 区 ， 这 些 概念 与 我 们 已 经 接触 过 的 其 
他 HotSpot 垃圾 收集 大 体 相似 。 


5 用 空间 超过 区 域 一 半 的 对 象 被 认为 是 巨型 (humongous) 对 象 。 它 们 被 
直接 分 配 在 特殊 的 巨型 区 域 中 ， 该 区 域 是 空闲 的 连续 区 域 ， 可 以 立即 成 为 
Tenured 区 (而 非 Eden 区 ) 的 一 部 分 。 
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G1 仍然 有 由 Eden 和 Survivor 区 域 组 成 的 新 生 代 这 个 概念 ， 当 然 ， 在 G1 中 组 成 的 代 的 
域 是 不 连续 的 。 新 生 代 的 大 小 是 自 适 应 的 ， 会 基于 整体 的 暂停 时 间 目 标 来 调整 。 
回想 一 下 ， 在 介绍 ParallelOld 收集 器 时 ， 我 们 曾 在 6.3 节 讨 论 过 “有 极 少数 从 老年 代 指 向 
新 生 代 对 象 的 引用 ”"。HotSpot 使 用 一 种 叫 作 卡 表 的 机 制 来 帮助 在 并 行 和 CMS 收集 器 中 利 
用 这 种 现象 。 


G1 收集 器 有 一 个 相关 的 功能 来 帮助 区 域 进行 跟踪 。 记 忆 集 (remembered set， 通 常 只 是 称 
为 RSet) 是 每 个 区 域 都 有 的 条 目 ， 它 们 会 记录 指向 当前 堆 区 域 的 外 部 引用 。 这 意味 着 G1 
不 需要 通过 遍历 整个 堆 来 寻找 指向 某 个 区 域 的 引用 ， 而 只 需要 检查 RSets， 然 后 扫描 这 些 
区 域 来 寻找 引用 。 


图 7-6 演示 了 G1 是 如 何 使 用 RSets 来 实现 分 配器 和 收集 器 之 间 的 工作 划分 的 。 
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7-6: 记忆 集 


RSets 和 卡 表 这 两 种 方法 都 可 以 帮助 处 理 一 个 叫 浮动 垃圾 (floating garbage) 的 垃圾 收集 问 
题 。 浮 动 垃圾 产生 的 原因 是 有 些 对象 本 来 应 该 是 死 的 ， 但 是 在 当前 收集 集合 之 外 的 死亡 对 
象 中 仍然 保留 着 对 这 些 对 象 的 引用 。 也 就 是 说 ， 如 果 是 全 局 标记 ， 那 么 可 以 看 到 这 些 对 象 
是 死 的 ， 但 如 果 是 一 个 局 限 性 更 大 的 局 部 标记 ， 那 可 能 会 错误 地 报告 这 些 对 象 是 活 的 ， 这 
和 当前 使 用 的 根 集 有 关 。 


7.4.3 G1 的 各 阶段 
G1 可 以 划分 为 一 系列 阶段 ， 和 之 前 遇 到 的 收集 器 (特别 是 CMS) 有 点 类 似 ， 上 有 具体 如 下 。 


1. 初始 标记 (initial mark)，STW 
2. 并 发 根 扫描 (concurrent root scan ) 
3. 并 发 标记 (concurrent mark) 

4. 重新 标记 (remark) ，STVW 











5. 清理 (cleanup)，STW 

并 发 根 扫描 是 一 个 并 发 标记 阶段 ， 该 阶段 会 扫描 初始 标记 的 Survivor 区 域 以 寻找 指向 老年 
代 的 引用 。 这 个 阶段 必须 在 下 一 次 Young GC 开始 之 前 完成 。 在 重新 标记 阶段 ， 标 记 周 期 
完成 。 这 个 阶段 还 执行 引用 处 理 (包括 弱 引 用 和 软 引 用 )， 并 进行 与 实现 SATB 方法 有 关 
的 清 里 工作 。 

清理 阶段 大 多 是 STW 的 ， 它 包括 处 理 记 账 信息 和 “擦洗 ”RSet。 记 账 处 理 任务 会 识别 现 
在 已 经 完全 空闲 并 准备 好 复 用 的 区 域 (比如 用 作 Eden 区 域 )。 


7.4.4 用 于 G1 的 基本 JVM 标 志 
在 Java 8 和 更 早 的 版 本 中 ， 需 要 使 用 如 下 开关 来 启用 G1: 

+XX:UseG1GC 
回想 一 下 ，G1 是 围绕 暂停 时 间 目 标 设 计 的 。 这 使 得 开发 人 员 可 以 指定 应 用 程序 在 每 个 垃 
圾 收集 周期 中 应 该 暂停 的 最 大 时 间 。 虽 说 是 一 个 目标 ， 但 是 JVM 并 不 能 保证 应 用 程序 能 
够 达到 这 个 目标 。 如 果 这 个 值 设 置 得 太 低 ， 那 么 垃圾 收集 子 系统 将 无 法 达到 目标 。 
垃圾 收集 由 分 配 驱 动 ， 这 对 于 许多 Java 应 用 程序 来 说 是 非常 难以 预测 的 ， 因 
为 可 能 会 限制 或 损害 G1 达到 暂停 时 间 目 标的 能 力 。 













































































控制 G1 收集 器 这 一 核心 行为 的 开关 是 : 
-XX:MaxGCPauseMillis=200 


这 意味 着 默认 的 暂停 时 间 目 标 是 200 毫秒 。 因 此 ， 在 实践 中 很 难 可 靠 地 实现 暂停 时 间 小 于 
100 上 毫秒， 收集 器 也 很 难 达到 这 样 的 目标 。 男 一 个 可 能 有 用 的 选择 是 修改 区 域 的 大 小 ， 可 
以 这 样 覆 盖 默 认 算法 : 

-XX:GlHeapRegionSize=<n> 


注意 ，<n> 必须 是 2 的 答 ， 范 围 在 1 到 64 之 间 ， 表 示 一 个 单位 为 MB 的 值 。 我 们 在 第 8 章 
讨论 G1 调 优 时 会 介绍 其 他 G1 标志 。 


总 的 来 说 ，G1 现在 已 经 是 一 种 稳定 的 算法 了 ， 并 且 得 到 了 Oracle 的 完全 支持 (推荐 从 
8u40 开始 )。 对 于 真正 的 低 延 迟 工作 负载 ， 大 部 分 情况 下 其 表现 不 如 CMS， 也 不 清楚 单纯 
在 暂停 时 间 这 方面 ，G1 是 不 是 已 经 能 够 挑战 像 CMS 这 样 的 收集 器 。 不 过 ，G1 收集 器 仍 
然 在 不 断 改进 ， 它 也 是 Oracle 的 JVM 团队 在 垃圾 收集 上 的 重点 工程 方向 。 


7.5 Shenandoah 


除了 由 Oracle 主导 的 在 下 一 代 通 用 收集 器 方面 的 努力 ，Red Hat 也 在 OpenJDK 项 目 中 开发 
了 自己 的 收集 器 Shenandoah。 这 仍然 是 一 款 实 验 性 的 收集 器 ， 在 编写 本 书 时 还 没有 准备 
好 投入 到 生产 中 使 用 。 不 过 ， 它 显示 了 一 些 很 有 前 景 的 特性 ， 值 得 介绍 一 下 。 
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和 G1 一 样 ，Shenandoah 的 目的 也 是 减少 暂停 时 间 (尤其 是 在 大 堆 上 )， 对 此 的 解决 方法 是 
执行 并 发 压缩 。 在 Shenandoah 中 收集 的 相应 阶段 如 下 。 

.初始 标记 (initial mark) ，STVW 

并 发 标记 (concurrent marking) 

最 终 标记 (final marking) ，STVW 

. 并 发 压缩 (concurrent compaction ) 


这 些 阶段 最 初 看 起 来 可 能 和 在 CMS 与 G1 中 看 到 的 很 像 ， 因 为 Shenandoah 使 用 了 一 些 类 
似 的 方法 (比如 SATB)。 不 过 它们 之 间 也 有 一 些 根 本 的 区 别 。 


Shenandoah 最 显著 和 最 重要 的 一 个 方面 是 它 使 用 了 Brooks 指针 。” 该 技术 使 用 每 个 对 象 的 
一 个 额外 内 存 字 来 指示 该 对 象 在 垃圾 收集 的 上 一 个 阶段 是 否 被 重新 安置 (relocate) 了 , 并 
给 出 对 象 内 容 的 新 版 本 的 位 置 。 

Shenandoah 为 其 oops 所 使 用 的 相应 的 堆 布局 如 图 7-7 所 示 。 这 种 机 制 有 时 被 称 为 “转发 指 
针 ”(forwarding pointer) 方法 。 如 果 对 象 的 位 置 没 有 调整 ， 那 么 Brooks 指针 只 是 指向 下 
一 个 内 存 字 “。 





上 Dc 











0x00000017e022c310 
mark klass 
64 位 整 型 数 
0x00000031c290ac49 
Brooks 指 针 mark klass 


0x00000031c290ac49 | ox0000000020a117f3 0x00000003f0324a0 


64 位 整 型 数 (Shenandoah ) 














7-7: Brooks 指针 


Brooks 指针 机 制 依赖 于 硬件 比较 和 交换 (compare-and-swap，CAS) 操作 的 
可 用 性 来 提供 转发 地 址 的 原子 更 新 。 





并 发 标记 阶段 会 跟踪 整个 堆 ， 并 标记 任何 活 对 象 。 如 果 某 个 对 象 引 用 指向 了 一 个 包含 转发 
间 针 的 oop， 则 更 新 该 引用 ， 使 其 直接 指向 新 的 oop 位 置 ， 如 图 7-8 所 示 。 











注 5: Rodney Brooks, “Trading Data Space for Reduced Time and Code Space in Real-Time Garbage Collection 
on Stock Hardware,” in LFP’84, Proceedings of the 1984 ACM Symposium on LISP and Functional 
Programming (New York: ACM, 1984) ,256-262。 

注 6: 即 指向 当前 对 象 。 译 者 注 

















0x00000031c290ac49 


0x0000000182fe0112 0x0000000020a117£3 0x00000003f0324a0 


0x0000000182fe0112 


Brooks 指 针 mark klass 





0x0000000182fe0112 0x0000000020al17f3 0x00000003f0324a0 











7-8: 更 新 转发 指针 


在 最 终 标记 阶段 ，Shenandoah 会 让 应 用 程序 STW 以 重新 扫描 根 集 ， 然 后 复制 并 更 新 根 集 
使 其 指向 政 散 后 的 副本 。 


7.5.1 并 发 压缩 
垃圾 收集 线程 ( 它 与 应 用 程序 线程 并 发 执行 ) 现在 按照 下 列 步骤 执行 疏散 操作 。 


1. 将 对 象 复制 到 某 个 STAB (根据 推测 )。 

2. 使 用 一 个 CAS 操作 来 更 新 Brooks 指针 ， 使 其 指向 推测 的 副本 。 

3. 如 果 成 功 ， 则 压缩 线程 赢得 比赛 ， 那 么 以 后 都 将 通过 Brooks 指针 对 这 个 版 本 的 对 象 进 
行 所 有 访问 。 

4. 如 果 失 败 ， 则 压缩 线程 就 输 得 了 比赛 ， 那 么 它 会 撤销 推测 性 副本 ， 然 后 使 用 获胜 线程 留 
下 的 Brooks 指针 。 


由 于 Shenandoah 是 一 款 并 发 收集 器 ， 因 此 当 收 集 周期 运行 时 ， 应 用 程序 线程 会 产生 更 多 的 
垃圾 。 所 以 ， 在 应 用 程序 运行 期 间 ， 收 集 应 与 分 配 同步 进行 。 


























7.5.2 ”获取 Shenandoah 


Shenandoah 收集 器 目前 还 没有 成 为 Oracle Java 构建 版 本 的 一 部 分 ， 也 没有 在 大 多 数 
OpenJDK 发 行 版 中 提供 。 不 过 在 一 些 Linux 发 行 版 (包括 Red Hat Fedora) 中 ， 它 已 经 作 
为 IcedTea 二 进 制 文件 的 一 部 分 提供 了 。 
在 撰写 本 书 时 ， 其 他 用 户 还 必须 从 源 代码 编译 。 这 在 Linux 上 很 简单 ， 但 在 其 他 操作 系统 
上 ， 因 为 编译 器 (比如 macOS 使 用 的 是 clang， 而 不 是 gcc) 和 操作 环境 的 其 他 方面 的 差 
异 ， 可 能 就 不 那么 简单 了 。 
一 旦 获得 了 可 以 工作 的 构建 版 本 ， 可 以 用 如 下 开关 激活 Shenandoah: 

-XX:+UseShenandoahaC 


Shenandoah 和 其 他 收集 器 的 暂停 时 间 对 比如 图 7-9 所 示 。 
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1x2x2 4.0 GHz i7-4790K, Linux x86_64 4.4 
Latency by Percentile Distribution jbb15, preset IR = 4K, 10 minutes, 20 GB heap, ~4 GB LDS 
shenandoah/jdk9 eol7- 05-18), +UseTHP, +AlwaysPreTouch, +DisableExplicitGC 

1000 


Latency (milliseconds) 
a 
已 
S 


0% 90% 99% 99.9% 99.99% 99.999% 
Percentile 


— hs 一 91 一 一 parallelold — shenandoah 一 一 System-background 








图 7-9: Shenandoah 与 其 他 收集 器 的 对 比 (Shipilév) 


人 们 还 没有 充分 认识 到 Shenandoah 不 是 一 款 分 代 收 集 器 。 随 着 它 逐 渐 接近 成 为 具有 生产 能 
力 的 收集 器 ， 这 一 设计 决策 的 影响 将 变 得 更 加 清晰 ， 但 是 对 于 性 能 敏感 的 应 用 程序 而 言 ， 
该 收集 器 可 能 还 是 会 让 人 担忧 。 


7.6 C4 (Azul Zing) 


Azul Systems 公司 发 布 了 两 个 不 同 的 Java 平台 产品 。 其 中 一 个 是 Zulu， 它 是 一 个 基于 
OpenJDK 的 FOSS 解决 方案 ， 支 持 多 个 平台 。 男 一 个 是 Zing， 一 个 只 支持 Linux 的 商用 
专 有 平台 。 虽 然 它 使 用 的 是 来 自 OpenJDK 的 Java 类 库 (遵守 Oracle 专 有 许可 证 )， 但 使 
用 了 完全 不 同 的 虚 拉 机 。 


Zing 的 一 个 重要 的 方面 是 ， 它 从 一 开始 就 是 为 64 位 机 器 设计 的 ， 从 来 没有 
打算 支持 32 位 架构 。 




















Zing 虚拟 机 包含 了 一 些 新 颖 的 软件 技术 ， 包 括 C4 (continuously concurrent compacting 
collector) 垃圾 收集 器 和 一 些 新 笑 的 JIT 技术 ， 也 包括 ReadyNow 和 一 个 名 为 Falcon 的 编 
译 絮 。 

和 Shenandoah 一 样 ，Zing 使 用 了 一 种 并 发 压缩 算法 ,但 它 没 有 利用 Brooks 指针 。 相 反 ， 
Zing 使 用 的 是 单个 64 位 字 的 对 象 头 ， 而 不 是 像 HotSpot 那样 使 用 两 个 字 的 对 象 头 。 
单独 的 对 象 头 字 中 包含 一 个 kid， 它 是 一 个 数字 化 的 klass ID (大 约 25 位 长 )， 而 不 是 klass 
指针 。 


图 7-10 中 显示 了 Zing 对 象 头 ， 包 括 将 某 些 oop 引用 位 用 作 LVB (loaded value barrie) ， 而 
不 是 地 址 位 。 











注 7: FOSS: Free and Open Source Software， 自 由 和 开源 软件 。 一 一 译 者 注 
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0x00000017e022c310 






mark klass 
64 位 整 型 数 
0x00000021a6710932 
栈 
mark 
ox(@o)oo0021a6710932 [md took | «2 


64 位 整 型 数 (C4) 











7-10: Zing 中 的 对 象 头 布局 


对 象 头 底部 的 32 位 用 于 锁 信 息 ， 这 包括 锁 的 状态 以 及 跟 锁 的 当前 状态 相关 的 额外 信息 。 
比如 ， 在 轻 量 级 锁 (thin lock) 的 情况 下 ， 这 里 存 的 就 是 拥有 该 锁 的 线程 的 ID 。 关 于 轻 量 
级 锁 的 更 多 细节 ， 参 见 12.3 市 。 


因为 Zing 不 支持 压缩 指针 或 同等 技术 ， 所 以 对 于 小 于 30 GB 的 堆 ， 与 同等 
的 HotSpot 扒 相 比 ， 它 的 对 象 头 更 大 ， 占 用 的 堆 空间 也 更 多 。 














只 支持 64 位 架构 的 这 种 设计 选择 意味 着 Zing 的 元 数据 绝对 不 需要 放 到 32 位 的 大 小 中 , 也 
不 需要 分 配 扩展 结构 ， 再 通过 间接 指针 来 寻 址 ， 从 而 避免 了 在 32 位 HotSpot 中 的 一 些 指针 
操作 。 

















LVB 


在 Shenandoah 收集 嚣 中， 应 用 程序 线程 可 以 加 载 对 可 能 已 重新 定位 的 对 象 的 引用 ， 并 使 用 
Brooks 指针 跟踪 它们 的 新 位 置 。LVB 的 核心 思想 不 是 使 用 这 种 模式 ， 而 是 提供 一 个 解决 方 
案 ， 即 一 旦 加 载 完 成 ， 每 个 已 加 载 的 引用 会 直接 指向 对 象 的 当前 位 置 。Azul 称 之 为 自 愈 屏 
障 (self-healing barrier) 。 

如 果 Zing 跟随 一 个 被 收集 器 重新 定位 的 对 象 的 引用 ， 那 么 在 执行 任何 其 他 操作 之 前 ， 应 用 
程序 线程 将 更 新 对 对 象 新 位 置 的 引用 ， 从 而 “愈合 ”了 造成 重新 定位 问题 的 原因 。 这 意味 
着 每 个 引用 最 多 更 新 一 次 ， 如 果 该 引用 不 再 使 用 ， 就 不 做 任何 工作 来 保持 更 新 。 

除了 对 象 头 这 个 字 之 外 ，Zing 的 对 象 引 用 (比如 从 栈 上 的 某 个 局 部 变量 指向 保存 在 堆 中 的 
对 象 ) 会 使 用 该 引用 的 部 分 位 来 指示 与 对 象 垃圾 收集 状态 相关 的 元 数据 。 这 是 通过 使 用 引 
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用 本 身 的 位 而 非 一 个 单独 的 对 象 头 字 来 节省 一 些 空间 。 
Zing 定义 了 一 个 Reference 结构 ， 它 是 这 样 组 织 的 ; 


struct Reference { 


unsigned inPageVA : 21; // bits 0-20 
unsigned PageNumber: 21; // bits 21-41 
unsigned NMT : 1; // bit 42 

unsigned SpaceID : 2; // bits 43-44 
unsigned unused : 19; // bits 45-63 


}; 
int Expected_NMT_Value[4] = {0, 0, 0, 0}; 


// Space ID values: 

// 00 NULL and non-heap pointers 
// 01 Old Generation references 
// 10 New Generation references 
// 11 Unused 


NMT (not marked through) 元 数据 位 用 于 指示 对 象 在 当前 收集 周期 中 是 否 已 经 标记 。C4 维 
护 着 一 个 目标 状态 ， 活 对 象 都 应 该 标记 为 该 状态 。 当 在 标记 过 程 中 定位 一 个 对 象 时 ， 其 
NMT 位 会 被 设置 为 目标 状态 。 因 为 在 收集 周期 结束 时 ，C4 会 将 目标 状态 位 翻转 ， 所 以 现 
在 所 有 存活 的 对 象 都 为 下 一 个 周期 做 好 了 准备 。 


C4 中 的 垃圾 收集 周期 整体 分 为 以 下 3 个 阶段 。 


1. 标记 (mark) 
2. 重新 定位 (relocate ) 
3. 重新 映射 (remap ) 


与 G1 一 样 ， 重 新 安置 阶段 将 聚焦 于 最 稀 玻 的 fom 页 面 。 这 是 意料 之 中 的 ， 因 为 C4 是 一 
款 下 散 型 收集 器 。 

C4 使 用 了 一 种 叫 作 交替 压缩 (hand-over-hand compaction) 的 技术 来 提供 连续 压缩 。 这 依 
赖 于 虚拟 内 存 系 统 的 一 个 特性 一 一 物理 地 址 和 虚拟 地 址 是 不 连接 的 。 在 正常 运行 的 情况 
下 ， 虚 拟 内 存 子 系统 维护 一 个 在 进程 地 址 空间 中 的 虚拟 页 和 底层 的 物理 页 之 间 的 映射 。 
HotSpot 没有 使 用 系统 调用 来 管理 Java 堆 内存 ， 与 它 不 同 的 是 ，Zing 确实 会 

在 垃圾 收集 周期 中 通过 调用 进入 内 核 。 















































通过 使 用 Zing 对 象 被 复制 到 一 个 不 同 的 页 面 ， 这 自然 对 应 不 同 的 物理 地 址 ， 
从 而 实现 重新 安置 。 一 个 页 面 中 的 所 有 对 象 都 完成 复制 ， 物 理 页 面 就 可 以 释放 并 返还 
给 操作 系统 。 pe a 但 是 LVB 会 在 
内 存 故 障 发 生 之 前 处 理 并 修正 这 些 引 用 。 


Zing 的 C4 收集 器 始终 运行 两 个 收集 算法 ， 一 个 针对 新 生 代 对 象 ， 另 一 个 针对 老年 代 对 象 。 
这 显然 是 有 开销 的 ， 但 正如 在 第 8 章 中 研究 的 那样 ， 当 调 优 一 款 并 发 收集 器 (如 CMS) 



































时 ， 假 设 收集 器 在 运行 时 可 能 处 于 背 对 背 模式 对 开销 和 容量 规划 非常 有 用 ， 这 与 C4 表现 
出 的 连续 运行 模式 没有 太 大 区 别 。 

最 终 ， 性 能 工程 师 应 该 仔细 研究 转 到 Zing 和 C4 收集 器 的 收益 和 权衡 。 “测量 ， 不 要 猜测 ” 
的 理念 不 只 适用 于 其 他 地 方 ， 也 适用 于 虚拟 机 的 选择 。 


7.7 1IBM J9 中 的 均衡 收集 器 


IBM 开发 了 一 款 叫 作 J9 的 JVM。 它 在 历史 上 曾经 是 专 有 的 ， 不 过 IBM 正在 将 其 开源 ， 并 
重 命名 为 Open J9。 这 款 虚 拟 机 有 儿 个 不 同 的 收集 器 ， 可 以 通过 开关 控制 ， 其 中 包括 一 个 
与 默认 的 并 行 收集 器 HotSpot 类 似 的 高 吞吐 量 收集 器 。 


本 节 将 讨论 均衡 收集 器 (Balanced GC)。 它 是 64 位 J9 JVM 上 的 一 款 基 于 区 域 的 收集 器 ， 
是 为 大 于 4 GB 的 堆 设 计 的 。 它 的 主要 设计 目标 如 下 。 

改进 较 大 的 Java 堆 上 和 暂停 时 间 的 扩展 性 。 
。 尽量 减少 最 坏 情 况 下 的 暂停 时 间 。 
。 利用 对 非 均 匀 访 存 模型 (non-uniform memory access，NUMA) 的 感知 来 提升 性 能 。 
为 了 实现 第 一 个 目标 ， 堆 被 分 割 成 若干 个 区 域 ， 对 这 些 区 域 分 别 进行 管理 和 收集 。 和 G1 
一 样 ，Balanced 收集 器 最 多 希望 管理 2048 个 区 域 ， 因 此 会 选择 一 个 区 域 大 小 来 实现 这 一 
点 。 它 的 区 域 大 小 是 2 的 需 ， 这 点 也 和 G1 一 样 ， 但 是 Balanced 收集 器 允许 小 到 512 KB 
的 区 域 。 
正如 我 们 对 分 代 、 基 于 区 域 的 收集 器 的 期 望 一 样 ， 每 个 区 域 都 有 一 个 与 之 关联 的 年 龄 ， 其 
中 年 龄 为 零 的 区 域 (Eden) 用 于 分 配 新 对 象 。 当 Eden 空间 请 时 ， 就 必须 执行 一 次 收集 。 
对 此 ，IBM 的 术语 是 部 分 垃圾 收集 (partial garbage collection ，PGC ) 。 
PGC 是 一 个 STW 的 操作 ， 它 收集 所 有 的 Eden 区 域 。 如 果 收 集 器 认为 它们 值得 收集 ， 那 它 
也 可 以 另外 选择 收集 年 龄 较 大 的 区 域 。 这 样 看 来 ，PGC 类 似 于 G1 的 混合 收集 (Mixed GC)。 
一 旦 PGC 完成 ， 包 含 存活 对 象 的 区 域 的 年 龄 就 会 加 1， 该 区 域 有 时 被 称 为 代 
区 域 。 





















































其 他 9 垃圾 收集 策略 相 比 ， 另 一 个 好 处 是 类 印 载 可 以 增 量 执行 。Balanced 可 以 在 PGC 
间 收 集 属于 当前 收集 集合 的 类 加 载 器 。 与 其 他 Jo 收集 器 不 同 ， 类 加 载 器 只 能 在 全 局 收集 
期 间 收 集 。 


Balanced 收集 器 的 一 个 缺点 是 ， 因 为 PGC 只 能 看 到 它 所 选择 收集 的 区 域 ， 所 以 这 种 类 型 
的 收集 可 能 会 受到 浮动 垃圾 的 困扰 。 为 了 解决 这 个 问题 ，Balanced 使 用 了 一 个 全 局 标记 阶 
段 (global mark phase，GMP)。 这 是 一 个 部 分 并 发 的 操作 ， 它 会 扫描 整个 Java 堆 ， 并 标记 
可 以 收集 的 死 对 象 。 一 旦 GMP 完成 ， 随 后 的 PGC 就 会 对 这 些 数 据 进 行 操作 。 因 此 ， 堆 中 
浮动 垃圾 的 数量 会 受到 自 上 次 GMP 启动 以 来 死亡 的 对 象 数 量 的 限制 。 

















注册 
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Balanced 执行 的 最 后 一 类 垃圾 收集 操作 是 全 局 垃圾 收集 (global garbage collection，GGC ) ， 
它 是 一 个 会 压缩 堆 的 完全 STW 的 收集 ， 类 似 于 HotSpot 中 由 并 发 模式 失败 而 触发 的 Full GC。 


7.7.1 J9 对 象 头 


基本 的 J9 对 象 头 是 一 个 class 槽 ， 其 大 小 为 64 位， 如 果 启 用 了 压缩 引用 (compressed 
references) ， 则 为 32 位 。 


对 于 小 于 57 GB 的 堆 ， 压 缩 引 用 默认 开启 ， 类 似 于 HotSpot 中 的 压缩 指针 
技术 。 








但 是 ， 根 据 对 和 象 类 型 的 不 同 ， 对 象 头 可 能 会 包含 如 下 额外 的 槽 : 
同步 对 象 将 有 Monitor 槽 ，; 

。 放 入 内 部 JVM 结构 中 的 对 象 将 有 散 列 槽 。 

此 外 ，Monitor 槽 和 散 列 模 不 一 定 相 邻 于 对 象 头 ， 它 们 可 以 存储 在 对 象 中 的 任何 地 方 ， 以 

便利 用 因 对 章 而 浪费 的 空间 。Jo9 的 对 象 布局 如 图 7-11 所 示 。 








0x00000017e022c310 


mark klass 


0x00000000129a0266 0x00000003£0324a0 


64 位 整 型 数 


0x00000021a6710932 


class slot 


class pointer :flags 


64 位 整 型 数 (J9) 











7-11: J9 对 象 布局 


class 模 的 高 24 位 (或 56 位 ) 是 一 个 指向 class 结构 的 指针 ， 它 位 于 堆 外 ， 类 似 于 Java 8 
的 Metaspace。 低 8 位 是 用 于 不 同 目的 的 标志 ， 取 决 于 所 使 用 的 垃圾 收集 策略 。 





7.7.2” Balanced 收集 器 的 大 数组 


在 Java 中 分 配 大 数组 经 常会 触发 压缩 收集 ， 因 为 必须 找到 足够 的 连续 空间 来 满足 分 配 。 在 
讨论 CMS 时 曾 见 过 这 种 情况 ， 即 把 空 亲 列表 合并 起 来 有 时 也 不 足以 为 一 次 大 的 分 配 释 放 
足够 空间 ， 而 且 会 导致 并 发 模式 失败 。 

对 于 一 款 基于 区 域 的 收集 器 ， 完 全 有 可 能 遇 到 这 样 的 情况 要 分 配 的 数组 对 象 的 大 小 超过 
了 单个 区 域 的 大 小 。 为 了 解决 这 个 问题 ，Balanced 为 大 数组 使 用 了 另 一 种 表示 方式 ， 就 是 
允许 将 大 数组 分 配 到 不 连续 的 区 块 中 。 这 种 表示 方式 被 称 为 arraylet， 它 也 是 堆 对 象 可 以 
跨越 不 同 区 域 的 唯一 情况 。 

arraylet 表示 对 用 户 的 Java 代码 是 不 可 见 的 ， 由 JVM 透明 地 处 理 。 分 配器 把 一 个 大 数组 当 
作 一 个 中 心 对 象 ， 称 为 spine。spine 中 的 条 目 会 指向 一 些 数组 叶子 ， 而 这 些 叶 子 中 包含 真 
下 的 数组 条 目 ， 从 而 使 得 读 取 数组 条 目 只 需要 一 次 间接 访问 的 成 本 。 示 例如 图 7-12 所 示 。 





























条 sxldlsla 


| xn 
gd 











7-12: J9 中 的 arraylet 

















尽管 不 能 从 普通 的 Java 代码 中 看 到 arraylet 表示 ， 但 是 我 们 有 可 能 通过 JNI 
API 看 到 它 ， 所 以 程序 员 应 该 意识 到 ， 当 从 另 一 款 JVM 向 当前 平台 移植 JNI 
代码 时 ， 可 能 需要 考虑 spine 和 叶子 的 表示 。 























虽然 在 区 域 上 执行 PGC 可 以 减少 平均 暂停 时 间 ， 但 是 执行 垃圾 收集 操作 所 花费 的 总 时 间 
可 能 会 更 多 ， 因 为 维护 区 域 之 间 的 引用 和 被 引用 信息 是 有 开销 的 。 

最 重要 的 是 ， 需 要 进行 全 局 STW 收集 或 压缩 (暂停 时 间 的 最 坏 情 况 ) 的 可 能 性 大 大 降低 ， 
而 这 通常 是 在 堆 满 时 能 采取 的 最 后 手段 。 

由 于 管理 区 域 和 不 连续 的 大 数组 是 有 开销 的 ， 因 此 Balanced 收集 器 适用 于 那些 更 重视 暂停 
时 间 而 不 是 吞吐 量 的 应 用 程序 。 


7.7.3 NUMA 和 Balanced 收 集 器 


NUMA 是 用 于 多 处 理 器 系统 (通常 为 中 大 型 系统 ) 中 的 一 种 内 存 架构 。 当 处 理 器 和 内 存 被 
组 织 为 节点 时 ， 这 样 的 系统 会 涉及 一 个 内 存 和 处 理 器 之 间距 离 的 概念 。 在 一 个 给 定 的 节点 
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上 ， 处 理 器 可 以 访问 任何 节点 上 的 内 存 ， 但 对 本 地 内 存 〈( 即 内 存 和 处 理 器 属于 同一 节点 ) 
的 访问 要 快 得 多 。 

对 于 跨 多 个 NUMA 节点 执行 的 JVM， 均 衡 收 集 器 可 以 在 NUMA 节点 之 间 切 割 Java 堆 。 
在 组 织 应 用 程序 线程 时 ， 会 考虑 让 它们 便于 在 某 个 特定 节点 上 执行 ， 对 象 分 配 也 会 首选 这 
个 节点 本 地 内 存 中 的 区 域 。 这 种 安排 的 原理 如 图 7-13 所 示 。 














远 端 内 存 














7-13: NUMA 


此 外 ，PGC 会 尝试 让 对 象 靠 近 (内 存 距 离 ) 引用 它们 的 对 象 和 线程 。 这 意味 着 线程 引用 的 
内 存 更 有 可 能 是 本 地 的 ， 从 而 可 以 提高 性 能 。 这 个 过 程 对 应 用 程序 不 可 见 。 


7.8 遗留 的 HotSpot 收 集 器 


在 HotSpot 的 早期 版 本 中 ， 还 有 各 种 其 他 的 收集 器。 出 于 完整 性 考虑 ， 这 里 也 介绍 一 下 ， 
但 是 其 中 的 任何 一 个 都 不 推荐 在 生产 中 使 用 ， 而 且 有 些 组 合 在 Java 8 中 已 经 被 废弃 了 ， 从 
Java 9 开始 将 被 禁用 (或 删除 ) 。 


7.8.1 Serial 和 SerialOld 


Serial 和 SerialOld 收集 器 的 运行 方式 与 Parallel GC 和 ParallelOld 收集 器 类 似 ， 但 有 一 个 重 
要 的 区 别 : 它们 只 使 用 一 个 CPU 核心 来 执行 垃圾 收集 。 尽 管 如 此 ， 它 们 也 不 是 并 发 收集 
器 ， 而 且 依 然 是 完全 STW 的 。 当 然 ， 在 现代 多 核 系统 上 ， 使 用 这 些 收 集 器 不 会 带 来 任何 
性 能 上 的 好 处 ， 所 以 不 应 该 使 用 它们 。 











作为 性 能 工程 师 ， 你 应 该 了 解 这 些 收集 右 和 它们 的 激活 开关 ， 以 便 确 保 当 遇 到 设置 了 这 些 
开关 的 应 用 程序 时 ， 你 可 以 识别 并 删除 它们 。 

这 些 收集 器 作为 Java 8 的 一 部 分 已 被 废弃 ， 因 此 它们 只 会 出 现在 仍 在 使 用 非常 旧 的 Java 版 
本 的 早期 遗留 应 用 程序 中 。 











7.8.2 ” 增 量 式 CMS 
增 量 式 CMS 收集 器 ， 一 般 被 称 为 1CMS， 是 对 并 发 收集 的 较 早 尝试 ， 它 想 引 入 到 CMS 中 
的 一 些 想法 也 带 来 了 后 来 的 G1。 启用 这 种 CMS 模式 的 开关 是 : 

-XX:+CMSINncrementalMode 
有 些 专家 仍然 主张 ， 在 一 些 极端 情况 下 〈 对 于 部 署 在 只 有 一 两 个 核心 的 旧式 硬件 上 的 应 用 
程序 ) ，iCMS 从 性 能 角度 看 可 能 是 有 效 的 选择 。 但 是 ， 几 乎 所 有 的 现代 服务 器 级 应 用 程序 
都 不 应 该 使 用 iCMS， 而 且 它 已 经 在 Java 9 中 删除 。 
因为 增 量 模式 存在 安全 点 行为 和 其 他 负面 影响 ， 所 以 除非 有 强 有 力 的 证 据 表 
明 你 的 工作 负载 会 从 增 量 模式 中 受益 ， 否 则 不 应 该 使 用 它 。 















































7.8.3 已 被 废弃 和 删除 的 垃圾 收集 组 合 


目前 ， 通 常 废弃 (deprecation) 和 删除 (removal) 的 流程 是 ， 某 些 特 性 在 一 个 Java 版 本 中 
被 标记 为 废弃 ， 之 后 会 在 下 一 个 版 本 或 后 来 的 版 本 中 删除 。 相 应 地 ， 在 Java 8 中 , 表 7-1 
中 的 垃圾 收集 标志 组 合 已 经 被 标记 为 废弃 且 会 在 Java 9 中 删除 。 


表 7-1: 被 废弃 的 垃圾 收集 组 合 





组 ” 合 标 记 

DefNew + CMS -XX:-UseParNewGC -XX:+UseConcMarkSweepGC 

ParNew + SeriaLOLd -XX:+UseParNewGC 

ParNew + iCMS -Xincgc 

ParNew + iCMS -XX:+CMSIncrementalMode -XX:+UseConcMarkSweepGC 

DefNew + iCMS -XX:+CMSIncrementalMode -XX:+UseConcMarkSweepGC -XX:-UseParNewGC 
CMS foreground -XX:+UseCMSCompactAtFullCollection 

CMS foreground -XX:+CMSFullGCsBeforeCompaction 

CMS foreground -XX:+UseCMSCollectionpassing 


在 开始 一 次 新 的 调 优 之 前 ， 你 应 该 首先 查看 这 个 表 ， 以 便 在 一 开始 就 能 确定 要 调 优 的 应 用 
程序 没有 使 用 已 被 废弃 的 配置 。 
7.8.4 Epsilon 


Epsilon 收集 器 并 不 是 遗留 的 收集 器 ， 之 所 以 把 它 放 在 这 里 ， 是 因为 在 任何 情况 下 都 不 能 将 
其 应 用 于 生产 环境 中 。 但 对 于 其 他 的 收集 器 ， 如 果 在 你 的 环境 中 遇 到 了 ， 那 么 应 立即 将 其 
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识别 为 极 高 风险 ， 并 标记 为 立即 移 除 ， 而 Epsilon 略 有 不 同 。 
Epsilon 是 一 款 实验 性 的 收集 器 ， 只 为 测试 目的 而 设计 。 它 不 会 执行 任何 实际 操作 来 收集 垃 
圾 。 运 行 Epsilon 时 所 分 配 的 每 一 个 堆 内 存 字 节 实 际 上 都 是 一 个 内 存 泄漏 ， 它 们 无 法 回收 ， 
最 终 会 (可 能 会 很 快 ) 导致 JVM 耗 尽 内 存 而 月 江 。 

开发 一 款 只 处 理 内 存 分 配 但 不 实现 任何 实际 的 内 存 回收 机 制 的 垃圾 收集 。 一 旦 耗 

尽 了 可 用 的 Java 堆 ， 则 有 序 地 关闭 JVM。 








一 一 Epsilon JEP 
这 样 一 款 “ 收 集 器 ”对 于 下 列 目的 非常 有 用 : 
。 性 能 测试 和 微 基 准 测 试 ， 
。 回归 测试 
。 测试 低 分 配 或 零 分 配 的 Java 应 用 程序 或 类 库 代 码 。 
特别 是 ， 能 够 有 把 握 地 排除 任何 垃圾 收集 事件 对 性 能 数字 的 干扰 对 JMH 测试 很 有 帮助 。 
内 存 分 配 回归 测试 如 果 能 确保 修改 后 的 代码 不 会 极 大 地 改变 分 配 行为 ， 那 它 也 会 变 得 容 
易 。 开 发 人 员 还 可 以 编写 在 Epsilon 配置 下 运行 的 测试 ， 该 配置 只 接受 有 限 数量 的 分 配 ， 
当 分 配 超过 界限 时 ， 测 试 会 因 堆 耗 尽 而 失败 。 


最 后 ， 目 前 提议 的 虚拟 机 垃圾 收集 接口 也 将 从 Epsilon 中 受益 ， 因 为 可 以 把 它 当 作 接 口 本 
身 的 一 个 最 小 测试 用 例 。 


7.9 小 结 


垃圾 收集 是 Java 性 能 分 析 和 调 优 的 一 个 基本 方面 。Java 丰富 的 垃圾 收集 器 是 这 个 平台 的 一 
大 优势 ， 但 对 于 新 手 来 说 ， 它 可 能 会 让 人 望 而 生 县 ， 特 别 是 因为 介绍 每 一 种 选择 的 权衡 和 
性 能 结果 的 文档 还 比较 少 。 

本 章 简要 介绍 了 性 能 工程 师 所 面临 的 决策 ， 以 及 他 们 在 决定 为 其 应 用 程序 选择 
器 时 必须 做 出 的 权衡 。 我 们 讨论 了 一 些 基础 理论 ， 并 介绍 了 一 系列 实现 这 些 思 
圾 收集 算法 。 


下 一 章 将 把 其 中 的 一 些 理论 运用 到 实际 工作 中 ， 同 时 还 会 介绍 日 志 、 监 控 和 工具 ， 以 使 得 
关于 垃圾 收集 性 能 调 优 的 讨论 更 加 科学 严谨 。 
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第 8 章 
垃圾 收集 日 志 、 监 控 、 调 优 及 工具 





本 章 将 介绍 垃圾 收集 日 志和 监控 这 个 宏大 的 主题 。 这 是 Java 性 能 调 优 中 最 重要 和 最 显著 的 
一 个 方面 ， 同 时 也 最 容易 被 误解 。 


8.1 认识 垃圾 收集 日 志 


垃圾 收集 日 志 是 一 个 重要 的 信息 来 源 ， 对 于 与 性 能 相关 的 一 些 悬 而 未 决 的 案例 分 析 特 别 有 
用 ， 例 如 它 提 供 了 一 些 关于 崩溃 发 生 原因 的 见解 。 它 使 得 分 析 人 员 甚 至 可 以 在 没有 活跃 的 
应 用 程序 进程 可 供 诊断 的 情况 下 开始 工作 。 

每 一 个 严肃 的 应 用 程序 都 应 该 始终 做 到 : 

。 生成 垃圾 收集 日 志 ， 

。 将 其 保存 在 一 个 与 应 用 程序 的 输出 独立 的 文件 中 。 

对 于 生产 型 应 用 程序 来 说 尤其 如 此 。 正 如 我 们 将 看 到 的 ， | 
到 的 开销 ， 所 以 对 于 任何 重要 的 JVM 进程 来 说 ， 它 应 该 始终 开 


8.1.1 垃圾 收集 日 志 记录 


首先 要 做 的 是 在 应 用 程序 启动 时 添加 一 些 开关 。 最 好 把 这 些 开关 看 作 必 须 打 开 的 垃圾 收集 
日 志 标志 ， 任 何 Java/JVM 应 用 程序 (也 许 桌 面 应 用 程序 可 以 除外 ) 都 应 该 启用 。 这 些 标 


三 | 
志 是 : 

































































-XLoggc:gc.Log -XX:+PrintGCDetails -XX:+PrintTenuringDistribution 
-XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps 


接 下 来 详细 了 解 一 下 这 些 标志 ， 甚 用 法 如 表 8-1 所 示 。 
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表 8-1: 必须 打开 的 垃圾 收集 标志 
































标 志 影响 

-Xloggc:gc. log 控制 垃圾 收集 事件 写 和 哪个 文件 

-XX:+PrintGCDetails 将 垃圾 收集 事件 的 详细 信息 写 入 日 志 
-XX:+PrintTenuringDistribution 添加 对 工具 至 关 重 要 的 垃圾 收集 事件 额外 细节 
-XX:+printGCTineStanps 打印 垃圾 收集 事件 的 发 生 时 间 ( 自 虚拟 机 启动 后 的 秒 数 ) 
-XX:+PrintGCDateStamps 打印 垃圾 收集 事件 发 生 的 挂钟 时 间 





性 能 工程 师 应 该 注意 到 关于 这 些 标志 的 以 下 一 些 细 市 。 


。 PrintGCDetails 标志 取代 了 比较 旧 的 verbose:gc 标志 。 应 用 程序 应 该 删除 原来 的 标志 。 

。 printTenuringpistribution 标志 与 其 他 标志 不 同 ， 因 为 它 提供 的 信息 人 很 难 直接 处 理 ， 
需要 使 用 工具 。 该 标志 提供 了 计算 关键 的 内 存 压力 影响 和 事件 (如 过 早 晋 升 ) 所 需 的 原 
始 数 据 。 

。 PrintGCDateStamps 和 PrintGCTimeStamps 都 是 必需 的 ， 因 为 前 者 用 于 将 垃圾 收集 事件 
与 应 用 程序 事件 (在 应 用 程序 日 志文 件 中 ) 相关 联 ， 后 者 用 于 将 垃圾 收集 和 其 他 内 部 
JVM 事件 相关 联 。 


这 种 细节 程度 的 日 志 记 录 不 会 对 JVM 的 性 能 产生 可 测量 的 影响 。 当 然 ， 产 生日 志 的 量 取 
决 于 许多 因素 ， 包 括 分 配 率 、 使 用 的 收集 器 和 堆 大 小 【( 堆 越 小 ， 则 需要 更 频繁 地 进行 垃圾 
收集 ， 因 此 生成 日 志 的 速度 也 越 快 ) 。 

为 了 让 你 有 个 大 概 的 印象 ， 我 们 来 看 个 直观 的 例子 ， 以 第 6 章 的 模型 分 配器 为 例 ， 每 秒 分 
配 50 MB 内 存 ， 运 行 30 分 钟 ， 会 产生 约 600 KB 的 日 志 。 

除了 必须 使 用 的 这 些 标志 之 外 ， 还 有 一 些 控制 垃圾 收集 的 日 志 深 动 的 标志 (如 表 8-2 所 
示 )， 许 多 应 用 程序 支持 团队 会 发 现 它们 在 生产 环境 中 很 有 用 。 

表 8-2: 垃圾 收集 日 志 滚 动 标志 




























































































标 志 影 响 

-XX:+UseGCLogFileRotation 打开 日 志文 件 深 动 

-XX:+NumberOofGCLogFiles=<Nn> 设置 深 动 日 志文 件 的 个 数 

-XX:+GCLogFileSize=<size> 设置 深 动 日 志文 件 的 最 大 值 ， 当 文件 大 小 超过 该 参数 值 时 ， 日 志 将 
写 人 下 一 个 文件 





要 设置 合理 的 日 志 滚动 策略 ， 应 该 与 运 维 人 员 (包括 DevOps 人 员 ) 一 起 讨论 决定 。 这 种 
策略 的 选择 以 及 对 恰当 的 日 志和 工具 的 讨论 不 在 本 书 范围 之 内 。 


8.1.2 垃圾 收集 日 志 与 JMX 的 对 比 


我 们 在 2.7 市 介绍 了 VisualGC 工具 ， 它 能 够 实时 显示 JVM 的 堆 状态 。 该 工具 实际 上 依靠 
JMX (Java Management eXtension) 接口 来 收集 JVM 的 数据 。 关 于 JMX 的 完整 讨论 不 在 
本 书 范 围 之 内 ， 但 就 JMX 对 垃圾 收集 的 影响 而 言 ， 性 能 工程 师 应 该 注意 以 下 儿 点 。 




















。 垃圾 收集 日 志 数 据 是 由 实际 的 垃圾 收集 事件 驱动 的 ， 而 JMX 的 来 源 数据 是 通过 采样 获 
得 的 。 

。 垃圾 收集 日 志 数 据 获取 的 成 本 极 低 ， 而 JMX 存在 隐 含 的 代理 和 远程 方法 调用 (remote 
method invocation，RMI) 成 本 。 

。 垃圾 收集 日 志 数 据 包含 了 与 Java 内 存 管理 相关 的 性 能 数据 的 50 多 个 方面 ， 而 JIMX 只 
有 不 到 10 个 。 

传统 上 ， 作 为 性 能 数据 的 来 源 ，JMX 优 于 日 志 的 一 个 方面 是 它 可 以 提供 开 箱 即 用 的 流 式 数 

据 。 然 而 ， 诸 如 jClarity Censum (参见 8.2 节 ) 等 现代 工具 也 提供 了 将 垃圾 收集 数据 变 为 

流 式 的 API， 弥 补 了 这 一 缺陷 。 

如 果 要 对 堆 的 基本 使 用 情况 进行 粗略 的 趋势 分 析 ， 那 JMX 是 一 个 相当 快 

速 和 简单 的 解决 方案 。 然 而 ， 对 于 更 深层 次 的 问题 诊断 ， 它 很 快 就 力 不 从 

心 了 。 


















































通过 JMX 获得 的 Bean 是 标准 化 的 ， 而 且 很 容易 访问 。VisualVM 工具 提供 了 一 种 将 该 数 
据 可 视 化 显示 的 方式 ， 市 场 上 也 有 很 多 其 他 工具 可 用 。 


8.1.3 ”JMX 的 缺点 

使 用 JMX 监控 应 用 程序 的 客户 端 ， 通 常 要 依赖 对 运行 时 进行 采样 以 获得 当前 状态 的 更 新 。 
为 了 连续 获得 数据 ， 客 户 端 需要 轮 询 运 行 时 中 的 JMX Bean。 

在 存在 垃圾 收集 的 情况 下 ， 这 会 导致 一 个 问题 : 客户 端 无 法 知道 收集 器 何 时 运行 ， 进 而 也 
意味 着 每 个 收集 周期 前 后 的 内 存 状 态 都 是 未 知 的 。 因 此 ， 我 们 无 法 对 垃圾 收集 数据 执行 一 
系列 更 深入 和 更 精确 的 分 析 技 术 。 


即便 如 此 ， 基 于 JMX 数据 的 分 析 仍 然 有 用 ， 但 仅 限 于 确定 长 期 趋势 。 然 而 ， 如 果 想 准确 
地 调 优 某 个 垃圾 收集 器 ， 我 们 需要 做 得 更 好 。 特 别 是 能 够 了 解 每 次 收集 前 后 堆 的 状态 是 非 
常 有 用 的 。 

此 外 ， 还 有 一 组 围绕 内 存 压 力 的 极其 重要 的 分 析 ( 即 分 配 率 ) 也 因为 从 JMX 收集 数据 的 
这 种 方式 而 不 再 能 够 执行 。 

不 仅 如 此 ，JMXConnector 规范 目前 的 实现 依赖 于 RMI。 因 此 ， 使 用 RMI 通信 通道 会 遇 到 
的 任何 问题 ， 使 用 JMX 也 同样 会 遇 到 。 有 具体 包括 : 

。 打开 防火 墙 中 的 端口 ， 以 便 可 以 建立 后 续 的 套 接 字 连接 ; 

全 用 代理 对 象 以 方便 调用 remove() 方法 ; 

农 赖 于 Java 终结 化 (finalization ) 。 


对 于 少数 RMI 连接 来 说 ， 关 闭 连接 所 需 的 工作 量 微乎其微 。 然 而 ， 清 理工 作 要 依赖 于 终结 
化 。 这 意味 着 必须 运行 垃圾 收集 器 以 回收 该 对 象 。 

JMX 连接 的 生命 周期 这 一 性 质 在 大 多 数 情 况 下 会 导致 RMI 对 象 直 到 一 次 Full GC 时 才 会 被 
收集 。 关 于 终结 化 的 影响 以 及 为 什么 应 该 避免 终结 化 的 更 多 细 市 参见 11.6 市 。 
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默认 情况 下 ， 任 何 使 用 RMI 的 应 用 程序 每 小 时 都 会 触发 Full GC。 对 于 已 经 使 用 RMI 的 应 
用 程序 ， 使 用 JMX 不 会 增加 成 本 。 但 是 ， 对 于 还 没有 使 用 RMI 的 应 用 程序 ， 如 果 决 定 使 
用 JMX， 必 然 存在 额外 的 影响 。 


8.1.4 垃圾 收集 日 志 数 据 带 来 的 好 处 


现代 的 垃圾 收集 器 包含 了 很 多 不 同 的 活动 部 件 ， 将 其 组 合 在 一 起 得 到 的 是 一 个 非常 复杂 的 
实现 。 实 现 如 此 复杂 ， 以 致 某 个 收集 器 的 性 能 即使 不 是 不 可 能 的 ， 也 是 很 难 预测 的 。 这 些 
类 型 的 软件 系统 就 是 所 谓 的 浮现 式 的 (emergent) ， 因 为 它们 的 最 终 行为 和 性 能 是 所 有 组 件 
如 何 共同 工作 和 执行 的 结果 。 不 同 的 压力 会 以 不 同方 式 影响 不 同 的 组 件 ， 从 而 导致 成 本 模 
型 也 会 动态 发 生变 化 。 


最 初 ，Java 垃圾 收集 的 开发 人 员 计 、 加 了 垃圾 收集 日 志 来 帮助 调试 其 实现 ， 因 此 ，60 个 左右 
的 垃圾 收集 相关 标志 所 产生 的 数据 中 ， 有 很 大 一 部 分 是 出 于 性 能 调试 的 目的 。 


随 着 时 间 的 推移 ， 负 责 对 应 用 程序 中 的 垃圾 收集 过 程 进 行 调 优 的 人 开始 意识 到 ， 鉴 于 垃圾 
收集 调 优 的 复杂 性 ， 对 运行 时 中 正在 发 生 的 事情 有 个 精确 的 了 解 也 会 让 他 们 受益 匪 浅 。 因 
此 ， 不管 采 用 何 种 调 优 方式 ， 能 够 收集 和 阅读 垃圾 收集 日 志 都 是 很 有 帮助 的 。 


垃圾 收集 日 志 是 在 HotSpot JVM 内 部 使 用 非 阻塞 写 人 机 制 来 完成 的 。 它 对 
应 用 程序 的 性 能 没有 影响 ， 所 有 生产 环境 中 的 应 用 程序 都 应 该 开启 垃圾 收 
集 日 志 。 





























由 于 垃圾 收集 日 志 中 的 原始 数据 都 可 以 与 特定 的 垃圾 收集 事件 关联 在 一 起 ， 因 此 我 们 可 以 
对 其 进行 各 种 有 用 的 分 析 ， 从 而 了 解 垃 圾 收集 的 开销 ， 进 而 知道 哪些 调 优 动作 更 有 可 能 
生 正 面 的 结果 。 


8.2 日 志 解 析 工 具 


不 同 于 语言 规范 和 虚拟 机 规范 ， 垃 圾 收集 日 志 消 息 并 设 有 一 个 标准 的 格式 。HotSpot 垃圾 
收集 开发 团队 可 以 自行 决定 任何 一 条 消息 的 内 容 。 不 同 的 小 版 本 之 间 ， 格 式 都 有 可 能 发 生 
改变 ， 而 且 确 实 存在 改变 的 情况 


然 最 简单 的 日 志 格 式 很 容易 解析 ， 但 随 着 垃圾 收集 日 志 标志 的 添加 ， 所 产生 的 日 志 输 出 
ie， 因而 情况 也 就 进一步 复杂 化 。 并 发 收集 器 生成 的 日 志 更 是 如 此 。 


经 常 有 这 样 的 情况 发 生 ， 即 系统 采用 了 手写 的 垃圾 收集 日 志 解 析 器 ， 而 有 人 修改 了 垃圾 收 

集 配 置 这 使 得 日 志 输 出 格式 发 生 了 变化 ， 从 而 导致 在 此 之 后 的 某 个 时 间 点 ， 解 析 器 不 能 

继续 工作 。 调 查 其 原因 ， 了 矛头 指向 了 垃圾 收集 日 志 ， 团 队 发 现 自己 开发 的 解析 器 无 法 处 理 
器 在 日 志 信息 最 有 价值 的 那个 点 停止 了 工作 。 


不 建议 开发 人 员 自 己 解析 垃圾 收集 日 志 。 相 反 ， 应 该 使 用 某 个 工具 。 


































































































本 方 将 研究 两 个 还 在 活跃 维护 的 工具 ， 一 个 是 商业 的 ， 一 个 是 开源 的 。 社 区 也 有 其 他 一 些 
工具 (比如 GarbageCat) ， 不 过 都 是 偶尔 维护 ， 或 者 根本 不 维护 了 。 





8.2.1 Censum 


Censum 内 存 分 析 器 是 由 jClarity 开发 的 商业 工具 ， 它 既 可 以 作为 桌面 工具 (用 于 单个 JVM 
的 手动 分 析 )， 也 可 以 作为 监控 服务 (用 于 大 规模 JVM 集群 )。 该 工具 致力 于 提供 可 用 性 
最 好 的 垃圾 收集 日 志 解 析 、 信 息 提 取 和 自动 分 析 功 能 。 

图 8-1 中 的 Censum 桌面 视图 显示 的 是 运行 G1 垃圾 收集 器 的 金融 交易 应 用 程序 的 分 配 率 。 
即使 从 这 个 简单 的 视图 中 ， 我 们 也 可 以 看 到 交易 应 用 程序 中 有 几 个 时 间 段 分 配 率 很 低 ， 而 
且 正 好 与 市 场 的 平静 期 相 一 致 。 
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8-1: 
Censum 提供 的 其 他 视图 还 包括 暂停 时 间 图 ， 如 来 自 Saag 版 本 的 


Censum 分 配 视图 





图 8-2 所 示 。 
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8-2: Censum 的 暂停 时 间 视 图 


使 用 Censum Saag 监控 服务 的 一 个 优势 是 能 够 同时 查看 整个 集群 的 健康 状况 ， 如 图 8-3 所 
示 。 对 于 正在 进行 的 监控 ， 这 通常 要 比 每 次 处 理 一 个 JVM 更 容易 。 
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8-3: Censum 集群 健康 状况 概览 


Censum 在 开发 过 程 中 密切 关注 日 志文 件 的 格式 ， 并 对 所 有 可 能 影响 日 志 的 OpenJDK 的 代 
码 签 入 进行 监控 。Censum 支持 从 1.4.2 到 当前 所 有 版 本 的 Sun/Oracle Java 以 及 所 有 的 收集 
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器 ， 它 能 支持 的 垃圾 收集 日 志 配置 的 数量 也 是 市 面 上 所 有 工具 中 最 多 的 。 
从 目前 的 版 本 来 看 ，Censum 支持 对 以 下 这 些 方面 进行 自动 分 析 : 


。 准确 的 分 配 率 

。 过 早 晋 逢 

。 峰值 分 配 

。 暂停 时 间 

。 内 存 泄漏 检测 

。 堆 大 小 和 容量 规划 

。 操作 系统 对 虚拟 机 的 干扰 
。 内 存 池 大 小 是 否 合适 


关于 Censum 和 试用 许可 证 的 更 多 详情 ， 请 访问 jClarity 网 站 。 


8.2.2 GCViewer 


GCViewer 是 一 个 桌面 工具 ， 提 供 了 一 些 基本 的 垃圾 收集 日 志 解 析 和 图 形 化 显示 功能 ， 基 最 
大 的 优点 在 于 它 是 开源 软件 ， 可 以 免费 使 用 。 然 而 ， 它 提供 的 功能 没有 商业 工具 那么 多 。 


要 使 用 GCViewer， 需 要 下 载 源 代码 。 在 编译 和 构建 后 ， 可 以 将 其 打包 成 一 个 可 执行 的 JAR 


文件 。 


然后 可 以 在 GCViewer 主 界面 中 打开 垃圾 收集 日 志文 件 ， 示 例如 





图 8-4 所 示 。 
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file:/Users/boxcat/projects/jClarity/censum/gclogs/gc-trifid.log 


EE Vemoy Pause 


Total heap (usage / alloc. max) 


Max heap after conc GC 
Max tenured after conc GC 
Max heap after full GC 
Freed Memory 

Freed Mem/Min 

Total Time 
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Throughput 

Number of full gc pauses 
Full GC Performance 
Number of gc pauses 

GC Performance 


165.1M (66.2%) / 249.2M 
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图 8-4: GCViewer 
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GCViewer 缺乏 分 析 能 力 ， 对 于 HotSpot 可 能 生成 的 各 种 垃圾 收集 日 志 格 式 ， 它 只 能 解析 一 
部 分 。 


可 以 将 GCViewer 用 作 解 析 库 ， 将 数据 点 导出 到 一 个 可 以 可 视 化 显示 的 工具 中 ， 但 这 需要 
在 现 有 开源 代码 的 基础 上 进行 额外 的 开发 。 


8.2.3 ”对 于 同一 数据 的 不 同 可 视 化 效果 
你 应 该 知道 ， 对 于 同样 的 数据 ， 不 同 的 工具 可 能 会 生成 不 同 的 可 视 化 效果 。 我 们 在 6.6 节 
见 过 的 简单 锯 此 模式 ， 就 是 建立 在 一 个 以 堆 的 整体 大 小 作为 观测 量 的 采样 视图 之 上 的 。 


使 用 GCViewer 的 “垃圾 收集 后 的 堆 占 用 情况 ”(Heap Occupancy after GC) 视图 将 产生 该 
模式 的 垃圾 收集 日 志 绘 制 成 图 ， 我 们 就 得 到 了 如 图 8-5 所 示 的 可 视 化 效果 。 
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LE file:/Users/boxcat/projects/books/optimizing-java/optimizing-java/gc-sawtooth.log 


[eran | Event details Parser 








ET enoy rause 


Total heap (usage / alloc. max) 219.1M (89.2%) / 245.5M 
Max heap after conc GC n/a 
Max tenured after conc CC nja 
Max heap after full GC 55.8M (22.7%) 
Freed Memory 38,281.8M 
Freed Mem/Min 9,997.748M/min 
Total Time 3m49s 
Accumulated pauses 4.23s 
Throughput 98.16% 
Number of full gc pauses 7 
Full GC Performance 20,760.8M/s 
Number of gc pauses 1157 














GC Performance 8,904.9M/s 











8-5: GCViewer 中 的 简单 锯齿 模式 
下 面 再 来 看 看 同样 的 简单 锯齿 模式 在 Censum 中 的 显示 ， 如 图 8-6 所 示 。 
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图 8-6: Censum 中 的 简单 锯齿 模式 


虽然 图 像 和 可 视 化 效果 不 同 ， 但 在 这 两 种 情况 下 工具 给 出 的 信息 是 一 样 的 一 一 堆 正 在 正常 
运行 。 


8.3 ”基本 垃圾 收集 调 优 


当 工程 师 考虑 JVM 调 优 策略 时 ， 经 常会 出 现 这 样 一 个 问题 :“ 我 应 该 何 时 对 垃圾 收集 进行 
调 优 呢 ? ”与 其 他 任何 调 优 技术 一 样 ， 垃 圾 收集 调 优 应 该 是 整个 诊断 过 程 的 一 部 分 。 记 住 
关于 垃圾 收集 调 优 的 以 下 事实 非常 有 用 。 


1. 排除 或 确认 垃圾 收集 是 性 能 问题 的 根源 所 付出 的 成 本 很 低 。 
2. 在 用 户 验 收 测 试 中 开启 垃圾 收集 标志 的 成 本 很 低 。 
3. 设置 内 存 剖 析 器 或 执行 剖析 器 的 成 本 不 低 。 


工程 师 还 应 该 知道 在 调 优 过 程 中 要 研究 和 测量 以 下 4 个 主要 因素 : 




















分 配 
对 暂停 的 灵敏 度 
否 吐 量 行为 
对 象 生命 周期 
其 中 分 配 往往 是 最 重要 的 。 
吞吐 量 会 受到 很 多 因素 的 影响 ， 比 如 并 发 收集 器 在 运行 的 时 候 也 会 占用 处 理 
器 核心 。 
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现在 来 看 看 表 8-3 中 列 出 的 一 些 基 本 的 设置 扒 大 小 的 标志 。 
表 8-3: 设置 GC 堆 大 小 的 标志 











标 志 影 响 

-Xms<size> 设置 为 堆 保 留 的 内 存 的 最 小 值 
-Xms<size> 设置 为 堆 保留 的 内 存 的 最 大 值 
-XX:MaxPermSize=<size> 设置 PermGen 允许 的 最 大 值 (Java 7) 
-XX:MaxMetaspaceSize=<size> 设置 Metaspace 允许 的 最 大 值 (Java 8) 


MaxPermsize 标志 是 之 前 版 本 遗留 的 ， 只 适用 于 Java 7 及 之 前 的 版 本 。 在 Java 8 及 之 后 的 
版 本 中 ，PermGen 已 经 被 移 除 并 被 Metaspace 取代 。 


如 果 在 一 个 Java 8 应 用 程序 中 设置 MaxPermsize， 那 么 应 该 立刻 删除 该 标志 。 
为 为 JVM 会 忽略 它 ， 所 以 很 明显 它 不 会 对 应 用 程序 产生 任何 影响 。 

















当 涉 及 使 用 额外 的 垃圾 收集 标志 进行 调 优 时 ， 应 该 : 
。 每 次 只 添加 一 个 标志 ; 

。 确保 你 完全 理解 每 个 标志 的 效果 ， 
。 记得 有 些 组 合 会 产生 副作用 。 
检查 垃圾 收集 是 否 是 性 能 问题 的 原因 相对 来 说 比较 容易 ， 就 是 假设 事件 是 实时 发 生 的 。 第 
一 步 是 使 用 vmstat 或 类 似 工具 查看 机 器 的 高 级 指标 ， 如 3.6 节 所 讨论 的 那样 。 首 先 ， 登 录 
到 存在 性 能 问题 的 机 器 ， 检 查 是 否 有 如 下 问题 : 

。 CPU 利用 率 接近 100%; 

。 这 个 时 间 的 绝 大 部 分 (90% 以上) 是 在 用 户 空 间 中 消耗 的 ， 

。 垃圾 收集 日 志 显示 有 话 动 ， 表 明 垃 圾 收集 目前 正在 运行 。 

这 里 假设 的 是 问题 正在 发 生 ， 而 且 工 程 师 可 以 实时 观测 到 。 对 于 过 去 的 事件 ， 必 须 有 足够 
的 历史 监控 数据 (包括 CPU 利用 率 和 有 时 间 惟 的 垃圾 收集 日 志 )。 

如 果 以 上 3 个 条 件 都 满足 ， 则 应 将 垃圾 收集 作为 当前 性 能 问题 的 最 可 能 的 原因 进行 调查 
和 调 优 。 这 个 测试 非常 简单 ， 而 且 有 一 个 很 明确 的 结果 一 一 要 么 “垃圾 收集 正常 ”， 要 么 
“垃圾 收集 不 正常 ”。 

如 果 发 现 垃 圾 收集 是 性 能 问题 的 根源 ， 那 么 下 一 步 就 是 了 解 分 配 和 暂停 时 间 行 为 ， 然 后 对 
垃圾 收集 进行 调 优 ， 必 要 时 可 能 还 需要 内 存 剖析 器 。 


8.3.1 理解 分 配 行 为 

对 于 确定 如 何 调 优 垃圾 收集 器 ， 以 及 是 否 能 实际 通过 调 优 垃圾 收集 器 来 从 根本 上 提升 性 
能 ， 分 配 率 分 析 都 是 非常 重要 的 。 

可 以 使 用 新 生 代 收集 事件 中 的 数据 来 计算 分 配 的 数据 量 和 两 次 收集 之 间 的 时 间 ， 然 后 利用 
这 些 信息 计算 该 时 间 间 隔 内 的 平均 分 配 率 。 
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与 其 花费 时 间 和 精力 手动 计算 分 配 率 ， 不 如 使 用 工具 来 计算 这 个 数字 。 





经 验 表 明 ， 持 续 超 过 1 GB/s 的 分 配 率 几乎 总 是 表明 存在 性 能 问题 ， 而 且 这 些 问题 是 无 法 通 
过 调 优 垃圾 收集 器 来 解决 的 。 在 这 种 情况 下 ， 提 高 性 能 的 唯一 方法 是 通过 重 构 来 消除 应 用 
程序 关键 部 分 中 的 内 存 分 配 ， 从 而 改进 内 存 使 用 效率 。 

我 们 可 以 将 VisualVM (参见 2.7 节 ) 其 至 jmap (参见 6.1 节 ) 所 生成 的 简单 的 内 存 直方 
作为 理解 内 存 分 配 行 为 的 起 点 。 一 个 有 用 的 初始 分 配 策略 专注 于 以 下 4 个 简单 的 方面 : 

。 不 重要 的 、 可 避免 的 对 象 分 配 (例如 日 志 调 试 消息 ) 

。 装 箱 开销 

。 领域 对 象 

量 的 非 JDK 框架 对 象 


对 于 第 一 个 方面 ， 只 需要 发 现 并 删除 不 必要 的 对 象 创建 。 大 量 的 装 箱 操作 可 能 是 其 中 的 一 
种 形式 ， 但 是 也 有 很 多 其 他 例子 是 浪费 对 象 创建 的 可 能 来 源 ， 比 如 自动 生成 的 用 于 序列 化 / 
反 序 列 化 为 JSON 的 代码 ， 或 者 ORM 代码 。 
领域 对 象 通常 不 是 应 用 程序 内 存 利用 率 的 主要 贡献 者 ， 更 常见 的 是 以 下 类 型 : 
。 char[]: 组 成 字符 串 的 字符 
。 byte[]: 原始 二 进 制 数据 
。 double[] : 计算 数据 
。 Map 条 目 
。 Object[] 

内 部 数据 结构 (比如 methodoop 和 klass0op) 
只 需要 一 个 简单 的 直方 图 ， 往 往 就 可 以 发 现 内 存 汇 漏 或 大 量 创建 了 不 必要 的 领域 对 象 等 问 
题 ， 这 仅仅 是 因为 它们 会 出 现 于 堆 直 方 图 的 顶部 元 素 中 。 通 常 ， 所 需要 做 的 就 是 快速 计算 
出 领域 对 象 的 预期 数据 量 ， 看 看 观测 到 的 数据 量 是 否 符合 预期 。 
我 们 在 6.4.1 节 见 过 线程 本 地 分 配 ， 该 技术 的 目的 是 为 每 个 线程 提供 一 个 私有 的 区 域 来 分 
配 新 对 象 ， 从 而 实现 0(1) 分 配 。 
TLAB 的 大 小 会 根据 每 个 线程 的 情况 进行 动态 调整 ， 如 果 有 空间 ， 那 常规 对 象 就 会 在 
TLAB 中 分 配 。 如 果 没 有 ， 线 程 则 会 向 虚拟 机 请 求 一 个 新 的 TLAB 并 再 次 尝试 分 配 。 
如 果 这 个 对 象 连 空 的 TLAB 都 容纳 不 下 ， 那 虚拟 机 接 下 来 就 不 会 考虑 在 TLAB 中 分 配对 
象 ， 而 是 尝试 想 办 法 在 Eden 区 中 直接 分 配对 象 。 如 果 还 是 失败 ， 下 一 步 就 是 执行 一 次 
Young GC (这 可 能 会 调整 堆 的 大 小 )。 如 果 仍 是 失败 ， 依 然 没 有 足够 的 空间 ， 那 最 后 的 办 
法 就 是 直接 在 Tenured 区 中 分 配 该 对 象 。 


由 此 可 知 ， 最 终 真正 有 可 能 直接 分 配 在 Tenured 区 的 对 象 只 有 大 数组 (尤其 是 字 节 和 字符 
数组 ) 。 
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HotSpot 有 几 个 与 TLAB 和 大 对 象 提 前 进入 Tenured 区 有 关 的 调 优 标志 : 


-XX:PretenureSizeThreshold=<n> 
-XX:MinTLABSize=<n> 


和 所 有 的 开关 一 样 ， 在 没有 基准 测试 和 可 靠 的 证 据 能 证 明 其 确实 有 效 之 前 ， 不 应 该 使 用 它 
们 。 在 大 多 数 情况 下 ， 内 置 的 动态 行为 就 会 产生 很 好 的 结果 ， 而 任何 修改 都 不 会 产生 什么 
明显 的 影响 。 
分 配 率 也 会 影响 晋升 到 Tenured 区 的 对 象 数量 。 如 果 我 们 假设 寿命 短暂 的 Java 对 象 有 一 个 
固定 的 生命 周期 (用 挂钟 时 间 表 示 ) ， 那 么 较 高 的 分 配 率 将 导致 多 次 执行 Young GC 的 时 间 
间隔 更 近 。 如 果 收 集 太 过 频繁 ， 那 么 寿命 短暂 的 对 象 可 能 还 没 来 得 及 死亡 就 被 错误 地 晋升 
到 Tenured 区 。 
换 名 话说， 分 配 的 高 峰会 导致 出 现 我 们 在 6.6 节 见 过 的 过 早 晋 升 问题 。 为 防止 这 种 情况 发 
生 ，JVM 会 动态 调整 Survivor 空间 的 大 小 以 容纳 更 多 存活 下 来 的 数据 ， 而 不 用 将 其 晋升 到 
Tenured 区 。 
下 面 这 个 JVM 开关 有 时 对 处 理 提前 进入 Tenured 区 的 问题 和 过 早 晋升 有 所 帮助 : 
-XX:MaxTenuringThreshoLd=<n> 

它 可 以 控制 一 个 对 象 在 晋升 到 Tenured 区 之 前 必须 经 历 的 垃圾 收集 次 数 ， 甚 默认 值 是 4， 但 
是 可 以 将 其 设置 为 1 到 15 之 间 的 任何 值 。 修 改 这 个 值 代表 了 在 如 下 两 个 考虑 之 间 的 权衡 : 

国 值 越 高 ， 真 正 长 寿 的 对 象 被 复制 的 次 数 就 越 多 ， 

国 值 大 低 ， 一 些 寿 命 短 暂 的 对 象 就 会 被 晋升 ， 进 而 增加 Tenured 区 的 内 存 压力 。 
国 值 太 低 的 一 个 可 能 后 果 是 ， 由 于 更 多 的 对 象 被 晋升 到 Tenured 区 ， 导 致 该 区 域 被 更 快 填 
满 ， 因 此 Full GC 就 会 更 频繁 地 发 生 。 和 以 前 一 样 ， 如 果 没 有 明确 的 基准 测试 表明 将 某 个 
开关 修改 为 非 默 认 值 可 以 提升 性 能 ， 那 就 不 要 改动 该 开关 。 


8.3.2 理解 暂停 时 间 


开发 人 员 经 常会 对 暂停 时 间 产 生 认 知 偏差 。 很 多 应 用 程序 可 以 轻松 容忍 超过 100 毫秒 的 暂 
停 时 间 。 人 有 眼 每 秒 只 能 对 单个 数据 项 进行 5 次 更 新 ， 所 以 对 于 大 多 数 需要 和 人 打交道 的 应 
用 程序 (如 Web 应 用 ) 而 言 ， 我 们 看 不 到 100~200 毫秒 的 暂停 时 间 。 

对 于 暂停 时 间 的 调 优 ， 一 个 有 用 的 启发 式 方法 是 将 应 用 程序 分 为 3 个 大 的 区 间 。 这 些 区 间 
基于 应 用 程序 对 响应 的 需求 来 划分 ， 表 现 为 应 用 程序 可 以 容忍 的 暂停 时 间 。 

1. 大 于 1 秒 : 可 以 容忍 超过 1 秒 的 暂停 时 间 。 

2.100 毫秒 ~ 1 秒 : 可 以 容忍 超过 100 毫秒 但 小 于 1 秒 的 暂停 时 间 。 

3. 小 于 100 毫秒 : 不 能 容忍 超过 100 毫秒 的 和 暂停 时 间 。 

如 果 将 应 用 程序 对 暂停 的 灵敏 度 与 其 预期 的 堆 大 小 结合 起 来 考虑 ， 那 我 们 就 可 以 构建 一 个 
最 佳 评估 表 来 判断 应 该 选择 哪 种 收集 器 ， 结 果 如 表 8-4 所 示 。 










































































表 8-4: 初始 收集 器 选择 





可 以 容忍 的 暂停 时 间 堆 大 小 
大 于 1 秘 100 毫秒 ~ 1 秒 小 于 100 毫秒 小 于 2 GB 
Parallel Parallel CMS 小 于 4 GB 
Parallel Parallel/G1 CMS 小 于 4 GB 
Parallel Parallel/G1 CMS 小 于 10 GB 
Parallel/G1 Parallel/G1 CMS 小 于 20 GB 
Parallel/G1 G1 CMS 大 于 20 GB 


希望 这 些 指南 和 经 验 法 则 成 为 调 优 的 起 点 ， 但 它们 并 非 是 完全 明确 的 规则 。 


展望 未 来 ， 随 着 G1 收集 器 不 断 成 熟 ， 我 们 有 理由 期 待 它 会 扩展 到 支持 目前 ParallelOld 所 
涵盖 的 更 多 用 例 。 它 也 有 可 能 扩展 到 支持 CMS 的 用 例 ， 不 过 可 能 性 不 是 很 大 。 


当 使 用 并 发 收集 器 时 ， 在 尝试 对 暂停 时 间 进 行 调 优 之 前 ,仍然 应 该 减少 分 
配 。 减 少 分 配 也 会 减少 并 发 收集 器 面 对 的 内 存 压力 ， 从 而 使 收集 周期 更 容易 
跟 上 分 配 线程 的 速度 。 这 将 降低 出 现 并 发 模式 失败 的 可 能 性 ， 而 对 暂停 敏感 
的 应 用 程序 来 说 ， 则 需要 尽 可 能 避免 出 现 并 发 模式 失败 这 样 的 事件 。 


















































8.3.3 ”收集 器 线程 和 GC 根 


一 个 有 用 的 思维 训练 是 “ 像 垃 圾 收集 线程 一 样 思考 ， 这 可 以 让 我 们 深 ee 
种 情况 下 的 行为 。 然 而 ， 与 垃圾 收集 的 其 他 很 多 方面 一 样 ， 总 是 存在 一 些 基本 的 权衡 。 这 
些 权衡 包括 定位 GC 根 所 需 的 扫描 时 间 会 受到 以 下 因素 的 影响 ， 
。 应 用 线程 的 数量 

代码 缓存 中 已 编译 代码 的 数量 
。 堆 的 大 小 
即使 对 于 垃圾 收集 的 这 一 个 方面 来 讲 ， 以 上 哪个 因素 会 对 GC 根 的 扫描 起 主导 作用 也 总 是 
取决 于 运行 时 条 件 和 可 以 并 行 化 的 程度 。 
例如 ， 考 虑 在 标记 阶段 发 现 一 个 巨型 0bject[] 的 情况 。 因 为 扫描 将 由 单个 线程 完成 ， 所 以 
不 会 存在 工作 窃取 。 在 极端 情况 下 ， 单 线程 扫描 时 间 将 占据 整个 标记 时 间 。 
事实 上 ， 对 象 图 越 复杂 ， 这 种 效果 就 越 明 显 。 这 意味 着 图 中 存在 的 对 象 “长 链 ” 越 多 ， 标 
记 时 间 就 会 越 差 。 
如 果 应 用 程序 线程 的 数量 很 多 ， 那 也 会 对 垃圾 收集 时 间 产生 影响 ， 因 为 这 代表 着 有 更 多 的 
栈 帧 需要 扫描 ， 并 且 达 到 某 个 安全 点 也 需要 更 多 时 间 ， 而 且 不 管 是 在 裸 机 还 是 虚拟 化 环境 
中 ， 它 们 还 会 给 线程 调度 器 带 来 更 大 的 压力 。 


GC 根除 了 这 些 传统 的 例子 之 外 ， 还 有 其 他 来 源 ， 包 括 JNI 帧 和 被 JIT 编译 的 代码 的 代码 
缓存 (参见 9.4 节 )。 
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在 代码 缓存 中 的 GC 根 扫描 是 单线 程 的 〈 至 少 对 于 Java 8 来 说 是 这 样 ) 。 





在 这 3 个 因素 中 ， 栈 和 堆 扫 描 的 并 行 化 程度 相当 高 。 分 代 收 集 器 还 会 记录 来 自 其 他 内 存 池 
的 根 ， 在 G1 中 会 使 用 像 RSet 这 样 的 机 制 ， 而 在 Parallel GC 和 CMS 中 则 使 用 卡 表 。 


例如 ， 让 我 们 来 考虑 6.3 节 中 介绍 过 的 卡 表 。 它 们 被 用 于 指示 包含 从 老年 代 指向 新 生 代 的 


引用 的 内 存 块 。 








因为 卡 表 中 的 1 字 节 代表 老年 代 中 的 512 字 节 ， 所 以 很 明显 ， 如 果 老 年 代 





内 存 有 1 GB， 则 必须 扫描 2 MB 大 小 的 卡 表 。 
为 了 解 扫 描 一 个 卡 表 需要 多 长 时 间 ， 我 们 来 看 一 个 简单 的 基准 测试 ， 模 拟 扫 描 20 GB 大 小 





的 堆 的 卡 表 : 


@State(Scope.Benchmark) 

@BenchmarkMode(Mode.Throughput) 

@Warmup(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS) 
@Measurement(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS) 
@OutputTimeUnit(TimeUnit.SECONDS) 


@Fork(1) 


public class SimulateCardTable { 


// 老年 代 占 了 堆 的 3/4， 对 于 1GB 的 老年 代 空间 ， 需 要 2MB 大 小 的 卡 表 











private static final int SIZE FOR 20_GIG HEAP = 15 * 2 * 1024 * 1024; 


private static final byte[] cards = new byte[SIZE_FOR_20_GIG_HEAP]; 


@Setup 
public 


static final void setup() { 


final Random r = new Random(System.nanoTime()); 
for (int i=0; i<100 000; i++) { 


} 
} 


cards[r.nextInt(SIZE_FOR_20_GIG_HEAP)] = 1; 


@Benchmark 
public int scanCardTable() { 
int found = 0; 
for (int i=0; i<SIZE FOR 20_GIG HEAP; i++) { 


if (cards[i] > 0) 
found++; 


return found; 


} 





运行 这 个 基准 测试 ， 会 看 到 类 似 于 下 面 的 输出 : 


Result "scanCardTable" 
108.904 +(99.9%) 16.147 ops/s [Average] 











(min, avg, max) = (102.915, 108.904, 114.266), stdev = 4.193 
CI (99.9%): [92.757, 125.051] (assumes normal distribution) 





# Run complete. Total time: 00:01:46 


Benchmark Mode Cnt Score Error Units 
SimulateCardTable.scanCardTable thrpt 5 108.904 + 16.147 ops/s 


这 表明 对 于 一 个 20 GB 大 小 的 堆 ， 扫 描 其 卡 表 大 约 需 要 10 毫秒 。 当 然 ， 这 是 单线 程 扫描 
的 结果 。 但 是 ， 我 们 据 此 对 新 生 代 收 集 的 暂停 时 间 有 了 一 个 有 用 的 大 致 下 限 。 


前 面 介绍 了 一 些 可 用 于 调 优 大 部 分 收集 器 的 通用 技术 ， 下 面 我 们 来 看 一 些 与 具体 收集 器 相 
关 的 调 优 方法 。 


8.4 调 优 Parallel GC 


Parallel GC (并 行 垃圾 收集 器 ) 是 最 简单 的 收集 器 ， 因 此 它 也 是 最 容易 调 优 的 就 并 不 奇怪 
了 ， 不 过 它 通常 只 需要 最 少 的 调 优 。Parallel GC 的 目标 和 取 人 金 很 清晰 : 

。 完全 STW; 

。 垃圾 收集 吞吐 量 高 / 计算 成 本 低 ， 

。 不 可 能 出 现 部 分 收集 ， 

。 暂停 时 间 会 随 堆 大 小 的 增加 线性 增长 。 

如 果 应 用 程序 能 够 忍受 Parallel GC 的 特性 ， 那 么 它 可 能 是 非常 有 效 的 选择 一 一 特别 是 在 小 
堆 上 ， 比 如 那些 小 于 4 GB 的 堆 。 


较 老 的 应 用 程序 可 能 使 用 了 显 式 设置 大 小 的 标志 来 控制 各 个 内 存 池 的 相对 大 小 ， 这 些 标志 
汇总 在 表 8-5 中 。 


表 8-5: 较 老 的 设置 垃圾 收集 堆 大 小 的 标志 


















































标 志 影响 

-XX:NewRatio=<n> ( 旧 标 志 ) 设置 老年 代 与 新 生 代 的 相对 比例 
-XX:SurvivorRatio=<n> ( 旧 标 志 ) 设置 Survivor 空间 占 新 生 代 的 比例 
-XX:NewSize=<n> ( 旧 标 志 ) 设置 新 生 代 的 最 小 值 


-XX:MaxNewSize=<n> 日 标志 ) 设置 新 生 代 的 最 大 值 
日 标志 ) 设置 堆 空间 最 小 空闲 比例 ， 当 堆 空 间 的 空闲 内 存 小 于 这 个 数值 
时 ， 扩 展 堆 空间 
-XX:MaxHeapFreeRatio ( 旧 标 志 ) 设置 堆 空间 最 大 空闲 比例 ， 当 堆 空间 的 空闲 内 存 大 于 这 个 数值 
时 ， 压 缩 堆 空间 


Survivor 空间 比例 、 新 生 代 空 间 比 例 和 推 的 整体 大 小 之 间 通 过 下 面 的 公式 连接 起 来 : 


FLags set: 


-XX:MinHeapFreeRatio 


























-XX:NewRatio=N 
-XX:SurvivorRatio=K 


YoungGen = 1 / (N+1) of heap 
OldGen = N / (N+1) of heap 
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Eden = (K - 2) / Kof YoungGen 
Survivor1 = 1 / K of YoungGen 
Survivor2 = 1 / K of YoungGen 


对 于 大 多 数 现代 应 用 程序 而 言 ， 不 应 该 使 用 这 类 显 式 设置 大 小 的 操作 ， 因 为 JVM 的 自动 
优化 几乎 在 所 有 情况 下 比 人 做 得 好 。 对 于 Parallel GC 来 说 ， 实 在 没有 别 的 办 法 的 时 候 才 可 
以 考虑 这 些 开 关 。 


8.5 调 优 CMS 


CMS 收集 器 素 有 难以 调 优 之 名 ， 这 并 非 完 全 没有 道理 ， 因 为 要 想 让 CMS 发 挥 出 最 佳 性 
能 ， 其 中 的 复杂 性 和 权衡 不 容 小 凯 。 

不 幸 的 是 ， 许 多 开发 人 员 简 单 地 认为 “暂停 时 间 不 好 ， 所 以 并 发 标记 收集 器 好 ”。 像 CMS 
这 样 的 低 暂 停 收集 器 实际 应 该 被 视 为 最 后 的 手段 ， 只 有 在 用 例 真正 需要 低 STW 暂停 时 间 
的 情况 下 才 使 用 。 否 则 ， 团 队 可 能 会 被 一 个 难以 调 优 的 收集 器 所 困扰 ， 而 且 这 对 应 用 程序 
的 性 能 也 没有 任何 实际 的 好 处 。 

CMS 有 大 量 的 标志 (截至 Java 8u131， 几 乎 达到 100 个 ) ， 一 些 开 发 人 员 可 能 会 受到 诱惑 ， 
试图 通过 修改 这 些 标志 的 值 来 提高 性 能 。 然 而 ， 这 很 容易 导致 出 现 我 们 在 第 4 章 中 遇 到 的 
一 些 反 模式 ， 包 括 : 

。 摆弄 开关 

。 按照 坊间 传说 调 优 

。 忽略 大 局 


认真 的 性 能 工程 师 应 该 抵制 这 种 诱惑 ， 以 免 陷 入 这 些 认 知 陷阱 。 


对 于 大 多 数 使 用 CMS 的 应 用 程序 而 言 ， 可 能 并 不 能 通过 修改 CMS 命令 行 标 
志 的 值 就 获得 真正 可 见 的 性 能 改进 。 



























































管 有 这 样 的 危险 ， 但 在 某 些 情况 下 ， 仍 然 需要 通过 调 优 来 改进 CMS 性 能 ， 或 者 使 其 性 
可 以 接受 。 我 们 先 来 考虑 一 下 吞吐 量 行为 。 

当 一 次 CMS 收集 运行 时 ， 默 认 情 况 下 有 一 半 的 处 理 器 核心 在 处 理 垃圾 收集 。 这 不 可 避免 
地 会 导致 应 用 程序 的 吞吐 量 降低 。 一 个 有 用 的 经 验 法 则 是 芳 虑 收集 器 在 并 发 模式 失败 之 前 
的 情况 。 

在 这 种 情况 下 ， 只 要 CMS 收集 一 完成 ， 就 会 立即 启动 新 的 CMS 收集 ， 这 称 为 背靠背 收 
集 ， 在 并 发 收集 器 的 情况 下 ， 它 预示 着 并 发 收集 器 即将 崩溃 的 时 间 点 。 如 果 应 用 程序 分 配 
加 快 ， 那 么 回收 将 无 法 跟 上 ， 进 而 导致 并 发 模式 失败 。 

在 背靠背 收集 的 情况 下 ， 基 本 上 整个 应 用 程序 运行 的 否 吐 量 将 减少 50%。 在 进行 调 优 时 ， 
工程 师 应 该 考虑 应 用 程序 是 否 能 够 容忍 这 种 最 坏 的 情况 。 如 果 不 能 ， 那 可 能 就 应 该 将 应 用 
程序 迁移 到 拥有 更 多 处 理 器 核心 可 用 的 主机 上 运行 。 


尽 
能 




































































另 一 种 方法 是 在 CMS 周期 内 减少 分 配给 垃圾 收集 的 核心 数量 。 当 然 ， 这 是 很 危险 的 ， 因 

为 它 减少 了 执行 收集 可 用 的 CPU 时 间 ， 从 而 降低 了 应 用 程序 对 分 配 峰值 的 弹性 〈 反 过 来 

可 能 会 使 它 更 容易 受到 并 发 模式 失败 的 影响 )。 控 制 这 个 问题 的 开关 是 : 
-XX:ConcaCThreads=<n> 

很 明显 ， 如 果 一 个 应 用 程序 在 默认 设置 下 无 法 快速 回收 ， 那 么 减少 垃圾 收集 线程 的 数量 只 

会 让 事情 变 得 更 糟 。 

CMS 有 以 下 两 个 独立 的 STW 阶段 。 



































初始 标记 阶段 
标记 出 紧邻 的 内 部 节点 一 一 由 GC 根 直 接 指向 的 节点 。 
重新 标记 


使 用 卡 表 来 识别 可 能 需要 修复 的 对 象 。 


这 意味 着 所 有 的 应 用 程序 线程 都 必须 停止 ， 因 此 每 个 CMS 周期 会 两 次 进入 安全 点 。 对 于 
某 些 对 安全 点 行为 非常 敏感 的 低 延迟 应 用 而 言 ， 其 产生 的 影响 可 能 非常 明显 。 


有 了 时 一 起 出 现 的 两 个 标志 是 : 


-XX:CMSInitiatingOccupancyFraction=<n> 
-XX:+UseCMSInitiatingOccupancyOnly 


这 些 标志 可 能 非常 有 用 ， 它 们 还 再 次 说 明了 分 配 率 不 稳定 所 带 来 的 重要 影响 ， 以 及 由 之 而 
来 的 两 难 问题 。 


CMSInitiatingOccupancyFraction 标 志 用 于 确定 CMS 应 该 在 何 时 开始 执行 收集 。 当 
CMS 运行 的 时 候 ， 堆 中 需要 有 一 些 净空 间 ， 以 便当 出 现 对 象 从 新 生 代 晋升 而 来 时 ， 有 空 
间 可 用 。 


像 HotSpot 实现 垃圾 收集 的 方法 的 其 他 许多 方面 一 样 ， 这 个 空余 空间 的 大 小 由 JVM 本 身 收 
集 的 统计 数据 控制 。 然 而 ， 对 于 CMS 的 第 一 次 运行 而 言 ， 仍 然 需 要 一 个 估算 值 。 这 个 初 
始 的 估算 值 就 是 由 标志 CMSInitiatingOccupancyFraction 来 控制 的 ， 其 默认 值 为 73%， 它 
意味 着 当 堆 的 使 用 达到 这 个 比例 时 ， 将 触发 第 一 次 CMS Full GC。 

如 果 也 设置 了 UseCMSInitiatingOccupancyonly 标志 ， 则 占用 比例 不 会 再 动态 调整 。 不 要 轻 
易 这 样 做 ， 因 为 在 实践 中 净空 间 一 般 不 会 减少 (也 就 是 将 参数 值 增加 到 75% 以 上 )。 

然而 ， 对 于 一 些 分 配 率 非常 高 的 CMS 应 用 程序 来 说 ， 一 种 策略 是 在 关闭 自 适应 大 小 的 同 
时 增加 净空 间 (降低 参数 值 )。 这 样 做 的 目的 是 试图 减少 并 发 模式 失败 ， 但 代价 是 会 增加 
CMS 并 发 垃圾 收集 的 发 生 频率 。 


由 碎片 化 导致 的 并 发 模式 失败 


现在 来 看 看 执行 调 优 分 析 所 需要 的 数据 只 能 在 垃圾 收集 日 志 中 获得 的 情况 。 在 这 种 情况 
下 ， 我 们 想 使 用 空闲 链表 统计 来 预测 JVM 可 能 在 何 时 会 因为 堆 的 碎片 化 而 遭受 CMF。 这 
种 类 型 的 CMF 是 由 CMS 维护 的 空闲 链表 引起 的 ， 我 们 在 7.3.1 市 遇 到 过 。 
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Es 





需要 打开 另 一 个 JVM 开关 才能 看 到 额外 的 输出 : 


-XX:PrintFLSStatistics=1 


在 垃圾 收集 日 志 中 产生 的 输出 是 这 样 的 (这 里 演示 的 是 BinaryTreeDictionary 基准 测试 的 
输出 统计 细节 ) : 


Total Free Space: 40115394 





Max Chunk Size: 38808526 
Number of BLocks: 1360 
Av. Block Size: 29496 
Tree Height: 22 


在 这 个 案例 中 ， 我 们 可 以 从 块 的 平均 大 小 和 最 大 块 的 大 小 来 了 解 内 存 块 的 大 小 分 布 情况 。 
如 果 需 要 将 一 个 较 大 的 活 对 象 移 到 Tenured 区 ， 但 我 们 已 经 用 完了 能 够 支持 该 对 象 的 足够 
大 的 块 ， 那 么 垃圾 收集 晋升 就 退化 成 了 这 种 并 发 模式 失败 。 

为 了 压缩 堆 和 合并 空闲 空间 链表 ，JVM 将 回 退 到 Parallel GC， 这 可 能 会 引发 一 次 时 间 较 长 
的 STW 暂停 。 这 种 分 析 在 实时 执行 时 很 有 用 ， 因 为 它 会 发 出 信号 来 提醒 我 们 很 快 会 有 一 
次 时 间 较 长 的 和 暂停。 我 们 可 以 通过 解析 日 志 来 监测 该 信号 ， 或 者 使 用 Censum 这 样 的 工具 
来 自动 检测 即将 到 来 的 CMF。 


8.6 调 优 G1 

调 优 G1 的 总 体 目 标 是 让 终端 用 户 只 需 设 置 堆 的 最 大 值 和 MaxGCPauseMillis， 其 他 所 有 事 
情 都 由 收集 器 来 处 理 。 然 而 ， 目 前 的 实际 情况 离 这 个 目标 还 有 一 定 的 距离 。 

就 像 CMS 一 样 ，G1 自 带 了 大 量 的 配置 选项 ， 甚 中 一 些 还 处 于 实验 阶段 ， 效 果 如 何 还 不 能 
完全 看 出 来 。 这 使 得 我 们 很 难 理解 任何 调 优 变化 带 来 的 影响 。 如 果 调 优 需 要 这 些 选 项 ( 目 
前 它们 适用 于 一 些 调 优 场景 )， 则 必须 指定 以 下 这 个 开关 : 


-XX:+UnlockExperimentalVMOptions 




















特别 是 ， 如 果 要 使 用 选项 -XX:GlNewSizePercent=<n> 或 -XX:G1lMaxNewSizePercent=<n>， 则 
必须 指定 这 个 选项 。 在 未 来 的 某 个 时 间 ， 其 中 的 一 些 选 项 可 能 会 成 为 主流 ， 不 再 需要 实验 
性 选项 标志 ， 但 目前 还 没有 路 线 图 。 


图 8-7 显示 了 一 个 有 趣 的 G1 扒 视 图 ， 该 图 是 用 regions 这 个 应 用 程序 绘制 的 。 
































8-7: 在 regions 中 以 可 视 化 方式 显示 G1 堆 的 情况 

















regions 是 一 个 很 小 的 开源 Java FX 应 用 程序 ， 它 可 以 解析 G1 的 垃圾 收集 日 志 ， 还 可 以 根 
该 工具 由 Kirk Pepperdine 
编写 ， 可 以 从 GitHub 上 获得 。 在 本 书 编写 时 ， 它 仍 处 于 活跃 的 开发 之 中 。 








据 日 志 以 可 视 化 方式 显示 G1 堆 的 区 域 布 局 随时 间 的 变化 情况 。 




















G1 调 优 的 一 个 主要 问题 是 ， 与 早期 设计 相 比 ， 其 内 部 结构 发 生 了 很 

















大 的 变化 。 这 就 导致 


出 现 了 “按照 坊间 传说 调 优 ” 这 样 的 大 问题 ， 因 为 关于 G1 的 很 多 早期 文章 ， 效 果 已 经 很 








有 限 了 。 


随 着 G1 从 Java 9 开始 成 为 默认 的 收集 器 ， 性 能 工程 师 们 肯定 会 





被 迫 解决 如 何 调 优 G1 这 


个 问题 ， 但 在 撰写 本 书 时 ， 这 仍然 是 件 苗 差 事 ， 因 为 最 佳 实践 仍 在 不 断 涌现 。 





本 市 最 后 让 我 们 把 目光 集中 在 已 经 取得 的 一 些 进展 以 及 G1 确实 会 超越 CMS 这 一 事实 上 。 

















回想 一 下 ， 因 为 CMS 并 不 执行 压缩 ， 所 以 随 着 时 间 的 推移 ，+ 
并 发 模式 失败 ， 并 且 JVM 需要 执行 一 次 完整 的 并 行 收集 (可 
暂停 )。 




















全会 俯 











台 E 人 吕 
有 上 去 口 





片 化 。 这 最 终 会 导致 
HH 现 一 次 较 长 的 STW 


在 G1 的 情况 下 ， 只 要 收集 器 能 跟 上 分 配 率 ， 那 么 增 量 压缩 就 可 能 完全 避免 并 发 模式 失败 。 
因此 对 于 分 配 率 高 且 稳 定 ， 而 且 大 部 分 对 象 寿命 很 得 的 应 用 程序 ， 我 们 应 该 : 
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。 将 新 生 代 设置 得 较 大 ; 

。 增加 晋升 国 值 ， 可 能 达到 最 大 值 (15) ; 

。 设置 该 应 用 程序 可 以 忍受 的 最 长 暂停 时 间 。 

以 这 种 方式 配置 Eden 和 Survivor 空间 ， 可 以 尽 可 能 使 真正 的 短 寿命 对 象 不 被 晋升 。 这 有 既 
减轻 了 老年 代 的 压力 ， 又 减少 了 清理 旧 区 域 的 需要 。 在 垃圾 收集 调 优 中 ， 虽 然 并 不 能 保证 
能 达到 这 种 效果 ， 但 是 在 这 个 负载 的 例子 中 ，G1 可 能 确实 明显 好 于 CMS ， 尽 管 我 们 需要 
在 堆 的 调 优 上 付出 一 些 努 力 。 























8.7 jHiccup 


我 们 已 经 在 5.3.2 节 见 过 了 HdrHistogram。jHiccup 是 一 个 与 它 有 关 的 工具 ， 可 以 从 GitHub 
上 找到 。 这 是 一 个 注入 工具 ， 专 门 用 来 显示 JVM 无 法 连续 运行 的 “间隔 ” (hiccup) 。 产 生 
间隔 的 一 个 非常 常见 的 原因 是 垃圾 收集 STW 暂停 ， 但 其 他 与 操作 系统 和 平台 相关 的 影响 
也 会 导致 它 。 因 此 ， 它 不 仅 适 用 于 垃圾 收集 调 优 ， 还 适用 于 超 低 延 迟 工 作 。 

事实 上 ， 我 们 已 经 看 到 过 jHiccup 如 何 工作 的 例子 。 我 们 在 7.5 节 介 绍 了 Shenandoah 收集 
器 ， 并 展示 了 该 收集 器 与 其 他 收集 器 的 性 能 对 比 图 ， 图 7-9 就 是 由 JHiccup 生成 的 。 


在 调 优 HotSpot 时 ，jHiccup 是 很 好 的 工具 ， 尽 管 原 作者 (Gil Tene) 坦承 ， 
写 它 就 是 为 了 显示 与 Azul 的 Zing JVM 相 比 ，HotSpot 存在 的 一 个 缺点 。 












































jHiccup 一 般 通过 -javaagent:jHiccup.jar Java 命令 行 开 关 ， 以 Java 代理 的 形式 使 用 。 它 
也 可 以 通过 Attach API 来 使 用 ( 像 其 他 一 些 命令 行 工 具 一 样 )， 形 式 如 下 : 


jHiccup -p <pid> 
这 实际 上 将 jHiccup 注入 到 了 一 个 正在 运行 的 应 用 程序 中 。 
jHiccup 以 直方 图 日 志 的 形式 产生 输出 ， 这 些 日 志 可 以 被 HdrHistogram 读 取 。 首 先 回顾 一 
下 6.6 市 介绍 的 应 用 程序 分 配 模 式 来 看 看 这 个 操作 。 
下 面 我 们 使 用 一 组 适当 的 垃圾 收集 日 志 ， 并 让 jHiccup 以 代理 方式 运行 ,来 看 一 小 段 进 行 
运行 设置 的 shell 脚本 : 

#!/bin/bash 














# Simple script for running jHiccup against a run of the model toy allocator 
CP=. /target/optimizing-java-1.0.0-SNAPSHOT.jar 


JHICCUP_OPTS= 
-javaagent:~/.m2/repository/org/jhiccup/jHiccuyup/2.0.7/jHiccup-2.0.7.jar 


GC_LOG_OPTS="-Xloggc:gc-jHiccup.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps 
-XX:+PrintGCTimeStamps -XX:+PrintTenuringDistribution" 





MEM_OPTS9="-Xmx10" 
JAVA_BIN= “which java. 


if [ $JAVA HOME ]; then 
JAVA_CMD=$JAVA_HOME/bin/java 
elif [ $JAVA BIN ]; then 
JAVA_CMD=$JAVA_BIN 
else 
echo "For this command to run, either $JAVA HOME must be set, or java must be 
in the path." 
exit 1 
fi 


exec $JAVA_ CMD -cp SCP $JHICCUP_OPTS $GC_LOG_0PTS $MEM_OPTS 
optjava.ModelAllocator 


这 将 产生 一 个 垃圾 收集 日 志和 一 个 .hlog 文件 。jHiccup 提供 了 一 个 可 以 处 理 该 文件 的 名 
为 jHiccupLogProcessor 的 工具 。 图 8-8 演示 的 是 一 个 简单 的 、 可 以 直接 获取 的 jHiccup 
视图 。 
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8-8: ModelAllocator 的 jHiccup 视图 


这 是 由 一 个 非常 简单 的 jHiccup 调用 生成 的 : 
jHiccupLogProcessor -i hiccup-example2.hlog -o aLLoc-exampLe2 


这 个 工具 还 有 其 他 一 些 有 用 的 开关 ， 可 以 使 用 如 下 命令 来 查看 所 有 可 用 选项 : 


jHiccupLogProcessor -h 





通常 情况 下 ， 性 能 工程 师 需要 理解 同一 应 用 程序 行为 的 多 个 视图 ， 所 以 为 了 完整 起 见 ， 来 
看 看 使 用 Censum 运行 相同 应 用 的 结果 ， 如 图 8-9 所 示 。 
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8-9: ModelAllocator 的 Censum 视图 





从 垃圾 收集 后 堆 大 小 的 图 可 以 看 出 ，HotSpot 试图 调整 堆 大 小 ， 但 无 法 找到 一 个 稳定 的 
状态 。 这 是 一 种 常见 的 情况 ， 即 使 对 于 像 ModelAllocator 这 样 简单 的 应 用 程序 也 是 如 此 。 
JVM 是 一 个 非常 动态 的 环境 ， 大 多 数 情况 下 开发 人 员 应 该 避免 过 度 关注 垃圾 收集 自动 优化 
的 底层 细节 。 

最 后 ， 关 于 HdrHistogram 和 jHiccup 的 一 些 非 常 有 趣 的 技术 细节 ， 可 参阅 由 Nitsan Wakart 
所 写 的 一 篇 很 棒 的 博客 文章 。 


8.8 小 结 


本 章 介绍 了 垃圾 收集 调 优 艺术 的 一 些 皮毛 。 这 里 演示 的 技术 大 多 是 针对 个 别 收集 器 的 ， 但 
也 有 一 些 普遍 适用 的 基本 技术 。 本 章 还 介绍 了 一 些 处 理 垃圾 收集 日 志 的 基本 原则 以 及 一 些 
有 用 的 工具 。 


下 一 章 将 讨论 JVM 的 另 一 个 主要 子 系统 : 应 用 程序 代码 的 执行 。 我 们 首先 将 概述 解释 器 ， 
然后 在 此 基础 上 开始 讨论 JIT 编译 ， 包 括 它 与 标准 编译 (或 者 说 AOT 编译 ) 的 关系 。 




















第 9 章 





JVM 上 的 代码 执行 


任何 JVM 都 有 两 个 主要 服务 ， 一 是 内 存 管理 ， 二 是 为 应 用 程序 代码 执行 提供 一 个 易 用 的 
容器 。 第 6 章 至 第 8 童 深入 介绍 了 垃圾 收集 ， 本 章 将 开始 讲解 代码 执行 。 




















VMSpec 定义 了 以 解 和 


程 环 境 相 比 ， 解 释 性 环境 的 性 能 要 差 些 。 大 部 分 生产 级 的 现代 Java 环境 是 通过 提供 动态 编 


符 器 方式 执行 Java 字 市 码 。 然 而 一 般 说 来 ， 与 直接 执行 机 器 代码 的 编 


回忆 一 下 ，Java 虚拟 机 规范 (通常 简称 为 VMSpec) 描述 了 符合 规范 的 Java 
实现 需要 如 何 执 行 代码 。 








译 能 力 来 解决 该 问题 的 。 


正如 第 2 章 所 讨论 的 ， 


这 种 能 力 称 为 即时 编译 。 它 是 一 种 机 制 ，JVM 通过 该 机 制 监控 正在 





执行 的 方法 ， 以 确定 个 别 方法 是 否 有 资格 编译 成 可 直接 执行 的 代码 。 

本 章 首先 对 字 节 码 解 释 进行 简单 概述 ， 并 说 明 为 什么 HotSpot 不 同 于 你 可 能 熟悉 的 其 他 解 
释 器 。 然 后 会 介绍 剖析 制导 优化 (profile-guided optimization，PGO) 的 基本 概念 。 最 后 会 
探讨 代码 缓存 (code cache) 以 及 介绍 HotSpot 编译 子 系 统 的 基础 知识 。 

下 一 章 将 解释 HotSpot 某 些 最 常见 优化 背后 的 机 制 ， 并 说 明 你 应 该 如 何 利 用 这 些 机 制 生成 
快速 编译 方法 ， 以 及 它们 可 以 优化 到 何 种 程度 及 其 局 限 性 。 


9.1 字 节 码 解释 概览 


2.1 市 简单 介绍 了 JVM 解释 器 是 以 栈 式 机 器 方式 运行 的 。 这 意味 着 和 物理 CPU 不 同 ， 它 没 
有 可 用 于 计算 直接 保存 区 域 的 寄存 器 ， 所 有 要 运算 的 值 都 被 放 在 求 值 栈 (evaluation stack) 
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上 ， 且 栈 式 机 器 的 指令 通过 变换 栈 顶 值 来 工作 。 
JVM 提供 了 3 个 保存 数据 的 主要 区 域 : 


。 求 值 栈 ， 属 于 特定 方法 本 地 ， 
用 于 临时 存储 结果 的 局 部 变量 (也 属于 方法 本 地 ) ， 
。 对 和 象 堆 ， 在 方法 和 线程 间 共享， 


图 9-1 至 图 9-5 显示 了 一 系列 使 用 求 值 栈 来 执行 计算 的 虚拟 机 操作 。 作 为 一 种 伪 代 码 形式 ， 














Java 程序 员 应 该 可 以 很 容易 理解 这 些 操作 。 
@.、 
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图 9-1: 初始 解释 状态 
要 确定 与 x 的 内 容 进行 比较 的 值 ， 解 释 器 现在 必须 计算 右边 的 子 树 。 








仆 、 
八 














图 9-2: 子 树 求 值 
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下 一 个 子 树 的 第 一 个 值 ， 即 一 个 int 类 型 的 常量 3， 被 加 载 到 栈 上 。 























9-3: 子 树 求 值 


现在 另 一 个 int 值 1 也 被 加 载 到 栈 上 。 在 真正 的 JVM 中 ， 这 些 值 将 从 类 文件 的 常量 区 域 被 
加 载 进来 。 




















9-4: 子 树 求 值 


这 时 候 加 法 操作 会 作用 于 栈 顶 的 两 个 元 素 ， 你 应 该 移 除 它们 ， 然 后 将 两 数 相 加 的 结果 放 到 
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图 9-5: 最 终 的 子 树 求 值 


生成 的 值 现在 可 以 用 于 和 x 中 包含 的 值 进行 比较 了 。 在 计算 其 他 子 树 的 整个 过 程 中 ，x 的 
直 一 直 保 留 在 求 值 栈 中 。 

















9.1.1 JVM 字 节 码 


在 JVM 中 ， 每 个 栈 式 机 器 操作 码 (opcode) 用 1 字 节 表示 ， 叫 作 字 节 码 (bytecode)。 相 
应 地 ， 操 作 码 的 范围 是 从 0~255， 其 中 大 约 有 200 个 在 Java 10 中 使 用 。 

字 节 码 指令 是 带 类 型 信息 的 ，iadd 和 dadd 期 望 在 栈 顶 找到 两 个 正确 的 基本 类 型 值 〈 分 别 
是 两 个 int 和 两 个 double)。 

很 多 字 市 码 指 令 是 以 “家 族 ” 形 式 出 现 的 ， 很 多 是 一 条 指令 用 于 每 个 基本 类 
型 ， 一 条 用 于 对 象 引 用 。 


























比如 ， 在 store 一 族 中 ， 特 定 指 令 有 特定 意义 : dstore 的 意思 是 “将 栈 顶 的 值 保存 到 一 个 
double 类 型 的 局 部 变量 中 >， 而 astore 的 意思 是 “将 栈 顶 的 值 保存 到 一 个 引用 类 型 的 局 部 
变量 中 ”。 在 这 两 种 情况 下 ， 局 部 变量 的 类 型 必须 与 要 存 入 的 值 的 类 型 相 匹 配 。 

因为 Java 是 为 高 度 可 移植 设计 的 ， 所 以 JVM 规范 被 设计 为 无 须 修 改 就 能 在 大 端 (big-endian) 
和 小 端 (little-endian) 的 硬件 架构 上 运行 同样 的 字 节 码 。 因 此 ，JVM 字 节 码 必 须 决定 到 底 
遵循 哪 种 字 节 顺序 (使 用 相反 约定 的 硬件 必须 在 软件 层 处 理 这 种 差异 )。 


字 节 码 选择 了 大 端 方式 ， 所 以 对 于 任何 多 字 节 序列 ， 高 位 优先 。 












































一 些 操作 码 家 族 ， 比 如 Load， 有 些 简洁 形式 。 它 允许 省 略 参 数 ， 从 而 节省 类 文件 中 参数 所 
消耗 的 字 节 。 特 别 是 ，aload_9 将 当前 对 象 (也 就 是 this) 放 到 栈 顶 。 由 于 这 种 操作 非常 
常见 ， 因 此 可 以 大 大 节省 类 文件 的 大 小 。 

不 过 ， 因 为 Java 的 类 文件 通常 非常 紧凑 ， 所 以 这 种 设计 决策 在 Java 平台 发 展 早期 可 能 
为 重要 ， 当 时 类 文件 (通常 是 Applet) 要 通过 14.4 kbit/s 的 调制 解 调 器 下 载 。 

从 Java 1.0 开始 ， 只 引入 一 个 新 的 字 节 码 (invokedynamic)， 还 有 两 个 (jsr 

和 ret) 已 经 弃 用 了 。 
































简洁 形式 和 具体 类 型 指令 的 使 用 极 大 地 增加 了 所 需要 的 操作 码 的 数量 ， 这 是 因为 有 些 是 用 
于 表示 同样 的 概念 性 操作 。 因 此 ， 分 配 的 操作 码 的 数量 要 远 多 于 字 市 码 所 表示 的 基本 操作 
的 数量 ， 而 且 实际 上 字 节 码 的 概念 非常 简单 。 

接 下 来 看 一 些 主要 的 字 节 码 类 别 ， 它 们 以 字 贡 码 家 族 方式 排列 。 注 意 在 下 面 的 表 中 ，cd1 指 
示 的 是 一 个 2 字 节 的 常量 地 索引 ， 而 i1 指示 的 是 当前 方法 中 的 一 个 局 部 变量 ， 括 号 表明 
该 家 族 有 一 些 简洁 形式 的 操作 码 。 

我 们 要 看 到 的 第 一 个 类 别 是 加 载 和 保存 类 ， 如 表 9-1 所 示 。 该 类 别 中 的 操作 码 负责 将 数据 
移动 到 栈 上 ， 或 者 从 栈 上 移出 来 。 比 如 ， 从 常量 了 地 中 加 载 数 据 ， 或 者 将 栈 顶 的 数据 保存 到 
堆 中 对 象 的 一 个 字段 中 。 

表 9-1: 加 载 和 保存 类 





















































操作 码 家 族 名 参 数 描 ， 述 

load (i1) 将 局 部 变量 i1 中 的 值 加 载 到 栈 上 

store (i1) 将 栈 顶 的 值 保存 到 局 部 变量 i1 中 

ldc cl 将 常量 池 中 cl 的 值 加 载 到 栈 上 

Const 将 简单 常量 值 加 载 到 栈 上 

pop 抛弃 栈 顶 的 值 

dup 复制 栈 顶 的 值 

getfield c1 将 位 于 栈 顶 的 对 象 中 的 以 常量 池 cl 位 置 指示 的 字段 加 载 到 栈 上 
putfield cl 将 栈 顶 的 值 保存 到 以 常量 池 ct 位 置 指示 的 字段 中 
getstatic cl 将 以 常量 池 cl 位 置 指示 的 静态 字段 中 的 值 加 载 到 栈 上 
putstatic ek 将 栈 顶 的 值 保存 到 以 常量 池 cd 位 置 指 示 的 静态 字段 中 








应 该 弄 请 楚 ldc 和 const 的 区 别 。ldc 字 节 码 会 从 当前 类 的 常量 池 中 加 载 一 个 和 常量， 其 中 
包括 字符 串 、 基 本 类 型 常量 、 类 字面 值 常量 以 及 程序 运行 所 需要 的 其 他 (内 部 ) 常量 。， 
然而 ，const 操作 码 不 需要 参数 ， 它 用 于 加 载 一 系列 数量 固定 的 真 常量 ， 比 如 aconst_null、 
dconst_0 和 iconst_m1 (后 者 是 将 -1 当 作 一 个 int 值 加 载 )。 
































注 1: 最 新 的 JVM 版 本 允许 更 多 外 来 的 常量 ， 以 支持 现代 的 高 级 虚拟 机 技术 。 
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第 二 个 类 别 是 算术 操作 码 ， 它 们 仅 用 于 基本 类 型 ， 并 且 都 不 需要 参数 ， 因 为 它们 表示 的 是 
纯粹 的 基于 栈 的 操作 。 这 个 简单 类 别 如 表 9-2 所 示 。 





























表 9-2: 算术 类 

操作 码 家 族 名 描 述 

add 将 栈 顶 的 两 个 值 相 加 

sub 将 栈 顶 的 两 个 值 相 减 

div 将 栈 顶 的 两 个 值 相 除 

mul 将 栈 顶 的 两 个 值 相 乘 

(cast) 将 栈 顶 的 值 强 制 转换 为 一 个 不 同 的 基本 类 型 
neg 对 栈 顶 的 值 求 反 

rem 计算 栈 顶 的 两 个 值 的 余数 (整数 除法 ) 














表 9-3 显示 了 流程 控制 类 操作 码 。 它 们 用 于 在 字 节 码 层 次 表示 源 语言 层次 的 循环 和 分 支 等 
构造 。 比 如 ，Java 的 for、if、while 和 switch 语句 都 将 在 源 代码 编译 后 被 变换 为 流程 控 
制 操作 码 。 


表 9-3: 流程 控制 类 操作 码 
操作 码 家 族 名 参 数 描述 








if (i1) 如 果 条 件 为 true， 就 跳 转 到 参数 指定 位 置 
goto i1 无 条 件 跳 转 到 所 给 的 位 移 处 

tableswitch 超出 本 书 范畴 

Lookupswitch 超出 本 书 范畴 








关于 tableswitch 和 Lookupswitch 如 何 工作 的 详细 描述 不 在 本 书 范畴 之 内 。 





虽然 流程 控制 类 这 个 类 别 看 上 去 不 大 ， 但 流程 控制 操作 码 的 实际 数量 多 得 惊人 。 这 是 因为 
if 操作 码 家 族 的 成 员 有 很 多 ， 比 如 在 第 2 章 javap 的 示例 中 曾 看 过 的 if_icmpge 操作 码 ， 
而 且 还 有 很 多 其 他 用 于 表示 Java if 语句 的 不 同 变种 的 操作 码 。 


弃 用 的 jsr 和 ret 字 市 码 也 是 这 一 家 族 的 ， 不 过 从 Java 6 开始 ，javac 已 经 不 会 输出 它 
们 了 。 对 于 现代 版 本 的 Java 平台 而 言 ， 它 们 已 不 再 合法 ， 所 以 我 们 也 没有 将 其 放 在 这 
个 表 中 。 

最 重要 的 操作 码 类 别 之 一 如 表 9-4 所 示 。 这 就 是 方法 调用 类 别 ， 它 是 Java 程序 支持 将 控制 
转换 到 一 个 新 方法 的 唯一 机 制 。 换 言 之 ，Java 平台 把 局 部 的 流程 控制 与 将 控制 转换 到 另 一 
个 方法 完全 分 开 了 。 



































表 9-4: 方法 调用 类 



































操作 码 名 称 参 数 描 述 

invokevirtual (eh 通过 虚拟 分 派 (virtual dispatch) 调用 在 常量 池 cl 位 置 找到 的 方法 

invokespecial ai 通过 “特殊 分 配 ”( 也 就 是 精确 分 派 ) 调用 在 常量 池 cl 位 置 找到 
的 方法 

invokeinterface c1,count,0 使 用 接口 位 移 查找 ， 调 用 在 常量 池 cl 位 置 找到 的 接口 方法 

invokestatic cl 调用 在 常量 池 cl 位 置 找到 的 静态 方法 

invokedynamic c1,0,0 动态 查找 要 调用 的 方法 并 执行 该 方法 





JVM 的 这 种 设计 ， 以 及 显 式 的 方法 调用 操作 码 的 使 用 ， 意 味 着 在 机 器 代码 中 没有 一 个 与 之 
等 价 的 call 操作 。 

JVM 字 市 码 反 而 使 用 了 一 些 专 业 术 语 。 当 谈 到 调用 点 时 ， 它 指 的 是 某 个 方法 (调用 者 ) 内 
的 一 个 位 置 ， 在 那里 另 一 个 方法 (被 调用 者 ) 被 调用 了 。 不 仅 如 此 ， 在 非 静态 方法 调用 的 
情况 下 ， 我 们 总 是 会 将 方法 解析 到 某 个 对 象 上 。 这 个 对 象 就 是 所 谓 的 接收 者 对 象 (receiver 
object) ， 其 运行 时 类 型 被 称 作 接收 者 类 型 (receiver type)。 


对 静态 方法 的 调用 总 是 被 变换 为 invokestatic， 且 没有 接收 者 对 象 。 























刚 接触 到 虚拟 机 级 别 的 Java 程序 员 可 能 会 惊讶 地 发 现 ，Java 对 象 上 的 方法 调用 事实 上 会 根 
据 上 下 文 被 变换 为 三 种 可 能 的 字 节 码 (invokevirtual、invokespecial 或 invokeinterface) 
这 二 














我 们 可 以 进行 这 样 一 个 有 用 的 练习 : 使 用 javap 反 汇 编 一 个 简单 的 Java 类 ， 
编写 一 些 Java 代码 并 查看 什么 情况 下 会 生成 什么 类 型 的 调用 。 
































实例 方法 调用 通常 被 转换 为 invokevirtual 指令 ， 除 非 我 们 只 知道 接收 者 对 象 的 静态 类 
型 是 一 个 接口 类 型 ， 那 时 调用 会 用 invokeinterface 操作 码 来 表示 。 最 后 ， 在 编译 时 就 知 

道 分 派 的 精确 方法 ， 比 如 private 方法 或 对 父 类 方法 的 调用 ， 会 生成 一 个 invokespecial 
中 令 。 

那么 ，invokedynamic 是 怎么 加 进来 的 呢 ? 简单 来 说 ， 就 是 Java 在 语言 级 别 并 没有 直接 支 

持 invokedynamic， 即 使 在 Java 10 中 也 没有 。 

事实 上 ， 在 Java 7 中 ， 当 invokedynamic 被 添加 到 运行 时 的 时 候 ， 根 本 没有 办 法 强制 javac 
生成 新 的 字 节 码 。 在 这 个 旧版 本 的 Java 中 ， 只 添加 了 动态 调用 技术 来 支持 长 期 实验 和 非 

Java 的 动态 语言 (特别 是 JRuby)。 

然而 ， 从 Java 8 开始 ，invokedynamic 已 经 成 为 Java 语言 的 一 个 重要 部 分 ， 用 于 支持 一 些 
高 级 语言 特性 。 下 面 来 看 一 个 Java 8 Lambda 表达 式 的 简单 例子 : 
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public class LambdaExample { 
private static final String HELLO = "Hello"; 


} 


public static void main(String[] args) throws Exception { 
Runnable r = () -> System.out.println(HELLO); 
Thread t = new Thread(r); 


t.start(); 
tjoinC); 


这 个 简单 的 Lambda 表达 式 生 成 的 字 节 码 如 下 : 


public 


Code: 

: invokedynamic #2, 
: astore_1 

: new #3 
: dup 

: aload_1 

: invokespecial #4 


: astore 2 

: aload 2 

: invokevirtual #5 
: aload 2 

: invokevirtual #6 
: return 


static void main(java.lang.String[]) throws java.lang.Exception; 


0 // InvokeDynamic #0:run:()Ljava/lang/Runnable; 


// class java/Lang/Thread 


// Method java/Lang/Thread . 
// "<init>": (Ljava/lang/Runnable;)V 


// Method java/Lang/Thread.start:()V 


// Method java/Lang/Thread. join:()V 


即使 对 invokedynamic 指令 一 无 所 知 ， 从 它 的 形式 中 也 能 看 出 某 个 方法 正 被 调用 ， 以 及 调 
值 会 被 放 到 栈 项 。 


用 的 返回 





进一步 研 





f 究 这 个 字 节 码 ， 我 们 会 发 现 ， 不 出 所 料 ， 这 个 值 就 是 代码 中 Lambda 表达 式 所 对 
应 的 对 象 引 用 ， 它 由 正 被 invokedynamic 指令 调用 的 平台 工厂 方法 创建 。 当 前 类 的 篆 
中 有 些 扩展 项 ， 这 个 调用 会 创建 指向 扩展 项 的 引用 以 支持 该 调用 的 动态 运行 时 性 质 。 


量 池 





对 Java 程序 员 而 言 ， 这 或 许 是 invokedynamic 最 明显 的 用 例 了 ， 但 它 不 是 唯一 的 。 这 个 操 
作 码 广泛 应 用 于 JVM 上 的 非 Java 语言 中 ， 比 如 JRuby 和 Nashorn (JavaScript) ， 在 Java 


框架 中 也 是 如 此 。 尽 管 性 能 工程 师 应 该 对 此 有 所 了 解 ， 不 过 大 多 数 情况 下 人 们 还 是 因 





于 好 奇才 去 了 解 它 的 。 本 书后 面部 分 将 介绍 与 invokedynamic 相关 的 一 些 方面 。 


需要 考虑 的 最 后 一 个 类 别 是 平台 操作 码 ， 如 表 9-5 所 示 ， 它 们 主要 由 分 配 新 的 堆 存储 和 操 
纵 单个 对 象 上 的 intrinsic 锁 (同步 操作 使 用 的 monitor) 等 操作 组 成 。 


表 9-5: 平台 操作 码 类 别 











为 出 














操作 码 名 称 参 数 描 述 

new cl 为 在 常量 池 的 cl 位 置 找到 的 类 型 的 对 象 分 配 空间 
newarray prim 为 prim 类 型 的 基本 类 型 数组 分 配 空间 

anewarray cl 为 在 常量 池 的 cl 位 置 找到 的 类 型 的 对 象 数组 分 配 空间 
arraylength 获得 位 于 栈 顶 的 数组 的 长 度 ， 并 将 其 置 于 栈 顶 








操作 码 名 称 参 数 描 述 
monitorenter 锁定 栈 顶 对 象 的 管 程 
monitorexit 解锁 栈 顶 对 象 的 管 程 





对 于 newarray 和 anewarray 操作 码 ， 执 行 它们 时 需要 把 应 该 分 配 的 数组 长 度 放 到 栈 顶 。 

对 字 节 码 进行 分 类 时 ， 根 据 实现 每 个 字 节 码 的 复杂 程度 ,“ 粗 粒度 ”和 “ 细 粒 度 ” 字 节 码 

之 间 存在 明显 的 区 别 。 

比如 ， 算 术 操 作 就 是 细 粒 度 的 ， 在 HotSpot 中 用 纯 汇编 实现 。 与 之 相 比 ， 粗 粒度 操作 〈 比 

如 ， 需 要 常量 池 查 找 ， 特 别 是 方法 分 派 的 操作 ) 则 需要 调用 回 到 HotSpot 虚拟 机 中 。 

除了 单个 字 节 码 的 语义 之 外 ， 还 应 该 讨论 解释 代码 中 的 安全 点 。 第 7 章 介绍 了 JVM 中 安 

全 点 的 概念 ， 即 JVM 在 安全 点 上 需要 执行 一 些 管理 工作 ， 以 及 拥有 一 致 的 内 部 状态 。 这 

包括 对 象 图 ， 一 般 来 说 ， 它 正在 被 运行 的 应 用 程序 线程 修改 。 

为 达到 这 种 一 致 性 状态 ， 所 有 应 用 程序 线程 都 必须 停 下 来 ， 以 防 它们 在 JVM 执行 管理 的 

过 程 中 修改 共享 堆 。 这 是 怎么 实现 的 呢 ? 

回想 一 下 ， 每 个 JVM 应 用 程序 线程 都 是 一 个 真正 的 操作 系统 线程 。 不仅 如 此 ， 对 于 执行 

解释 方法 的 线程 ， 当 一 个 操作 码 即将 被 分 派 时 ， 应 用 程序 线程 肯定 在 运行 JVM 解释 器 代 

码 ， 而 不 是 用 户 代码 。 因 此 堆 应 该 处 于 一 致 性 状态 ， 而 且 应 用 程序 线程 可 以 暂停 。 

所 以 ,“ 在 字 节 码 之 间 ” 是 暂停 应 用 程序 线程 的 一 个 理想 时 间 ， 也 是 一 个 最 简单 的 安全 点 

示例 。 

对 于 JIT 编译 的 方法 ， 情 况 更 为 复杂 ， 但 本 质 是 必须 在 JIT 编译 器 生成 的 机 器 代码 中 间 插 
等 效 的 屏障 。 


9.1.2 简单 解释 器 

正如 第 2 章 中 提 到 的 ， 我 们 可 以 把 最 简单 的 解释 器 想象 为 套 在 while 循环 中 的 一 个 switch 
语句 。Ocelot 项 目 中 有 一 个 这 种 类 型 的 例子 ， 它 是 一 个 为 教学 设计 的 JVM 解释 器 的 部 分 
实现 。 如 果 你 尚 不 熟悉 解释 器 的 实现 ， 那 Ocelot 0.1.1 就 是 一 个 很 好 的 开始 。 
解释 器 的 execMethod() 方法 负责 解释 单一 的 字 节 码 方 法 。 目 前 只 是 为 支持 整 型 的 数学 运算 
和 运行 “Hello World” 程 序 就 已 经 实现 了 (有 些 是 假 的 实现 ) 足够 多 的 操作 码 。 
一 个 能 够 处 理 哪怕 非常 简单 的 程序 的 完整 实现 ， 也 需要 实现 非常 复杂 的 操作 并 使 之 正常 
工作 ， 比 如 常量 池 查 找 。 然 而 ， 即 使 只 有 一 些 非常 简单 的 骨架 ， 解 释 器 的 基本 结构 也 是 
清楚 的 : 

public EvalValue execMethod(final byte[] instr) { 


if (instr == null || instr.Length == 0) 
return null; 




































































注 2: 至 少 主流 的 服务 器 JVM 都 是 如 此 。 
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EvaLuationStack eval = new EvaluationStack(); 


int current = 0; 

LOOP: 

while (true) { 
byte b = instr[current++]; 
Opcode op = table[b & Oxff]; 
if (op == null) { 


System.err.println("Unrecognized opcode byte: " + (b & QOxff)); 


System.exit(1); 
} 
byte num = op.numparams(); 
switch (op) { 

Case IADD: 
eval.iadd(); 
break; 

case ICONST_0O: 
eval.iconst(0); 
break; 

J/ is 

case IRETURN: 
return eval.pop(); 

case ISTORE: 
istore(instr[current++]); 
break; 

case ISUB: 
eval.isub(); 
break; 

// 假 实现 

case ALOAD: 

Case ALOAD_0: 

case ASTORE: 

case GETSTATIC: 

Case INVOKEVIRTUAL: 

case LDC: 
System.out.print("Executing 


+ Op + 


with param bytes: "); 


for (int i = current; i < current + num; i++) { 


System.out.print(instr[i] + " "); 


} 


Current += num; 
System.out.println(); 
break; 

case RETURN: 
return null; 

default: 
System.err.println("Saw 
System.exit(1); 


+ Op + 


} 


: can't happen. Exit."); 


每 次 从 方法 中 读 取 一 个 字 市 码 ， 并 根据 这 个 字 市 码 进行 分 派 。 如 有 果 是 带 参 数 的 操作 码 ， 


些 参 数 也 会 从 流 中 读 出 来 ， 以 确保 读 取 位 置 总 是 正确 的 。 





这 








临时 值 在 EvaluationStack 上 进行 计算 ， 它 是 execMethod() 中 的 一 个 局 部 变量 。 算 术 操 作 
码 也 在 这 个 栈 上 进行 计算 ， 执 行 整 型 的 数学 计算 。 

在 这 个 最 简单 的 Ocelot 版 本 中 没有 实现 方法 调用 ,但 是 如 果实 现 了 ， 那 么 它 将 继续 在 常量 
池 中 查找 某 个 方法 ， 以 找到 与 要 调用 的 方法 相对 应 的 字 节 码 ， 然 后 递归 调用 execMethod()。 
Ocelot 0.2 演示 了 这 种 调用 静态 方法 的 情况 。 





9.1.3” HotSpot 特定 细节 
HotSpot 是 一 款 生产 级 JVM， 不 仅 完 全 实现 了 各 项 功能 ， 而 且 拥 有 大 量 的 、 为 支持 快速 执 
行 而 设计 的 高 级 特性 ， 从 而 使 得 即使 在 解释 模式 下 也 有 不 错 的 速度 。 和 我 们 在 Ocelot 这 个 
用 作 训 练 的 示例 中 采用 的 简单 风格 不 同 ，HotSpot 是 一 款 模 板 解释 器 (template interpreter) ， 
它 会 在 每 次 启动 时 动态 构建 解释 器 。 
这 理解 起 来 要 复杂 得 多 ， 而 且 对 于 新 手 来 说 ， 阅 读 解 释 器 的 源 代码 也 是 一 个 挑战 。HotSpot 
还 使 用 了 大 量 的 汇编 语言 来 实现 简单 的 虚拟 机 操作 (如 算术 运算 )， 并 利用 原生 平台 的 栈 
帧 布局 以 进一步 提高 性 能 。 
同样 可 能 令 人 惊讶 的 是 ，HotSpot 定义 并 使 用 了 没有 出 现在 虚拟 机 规范 中 的 、JVM 特有 的 
(也 可 以 说 是 私有 的 ) 字 节 码 。HotSpot 使 用 这 些 字 节 码 来 区 分 常用 的 热点 情况 和 某 个 特定 
操作 码 更 一 般 的 使 用 情况 。 
这 是 为 了 帮助 处 理 数 量 惊人 的 边缘 情况 而 设计 的 。 比 如 ，final 方法 不 能 被 覆盖 ， 所 以 开 
发 人 员 可 能 会 认为 ， 当 调用 该 方法 时 ，javac 会 生成 一 个 invokespecial 操作 码 。 然 而 ， 
《Java 语言 规范 》 中 的 13.4.17 节 对 这 种 情况 进行 了 如 下 说 明 。 

将 一 个 声明 为 final 的 方法 修改 为 不 用 final 修饰 ， 不 会 破坏 与 现 有 二 进 制 文件 

的 兼容 性 。 


考虑 一 段 Java 代码 ， 比 如 : 


public class A { 
public final void fMethod() { 
// …… 处 理 


























} 


public class CallA { 
public void otherMethod(A obj) { 
obj.fMethod(); 
} 
} 


现在 假设 javac 把 对 final 方法 的 调用 编译 成 invokespecial。CallA::otherMethod 的 字 节 
码 看 起 来 像 这 样 : 


public void otherMethod() 
Code: 
0: aload_1 
1: invokespecial #4 // Method A.fMethod:()V 
4: return 
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接 下 来 假设 A 的 代码 发 生 了 变化 ，fMethod() 不 再 用 final 修饰 。 现 在 它 可 以 在 子 类 中 
被 覆盖 了 ， 我 们 将 其 称 为 B。 假 设 B 的 一 个 实例 被 传 给 了 otherMethod()。 从 字 节 码 看 ， 
invokespecial 指令 将 被 执行 ， 从 而 导致 调用 了 错误 的 方法 实现 。 


这 破坏 了 Java 面向 对 象 的 规则 。 严 格 来 说 ， 它 违反 了 里 氏 蔡 换 原则 (以 面向 对 象 编程 的 先 
驱 者 之 一 Barbara Liskov 的 名 字 命 名 )。 简 单 来 说 ， 这 个 原则 就 是 子 类 的 实例 可 以 在 任何 需 
要 超 类 的 实例 的 地 方 使 用 ， 它 也 是 著名 的 软件 工程 SOLID 原则 中 的 上。 

因此 ， 对 final 方法 的 调用 必须 编译 成 invokevirtual 指令 。 然 而 ， 由 于 JVM 知道 这 样 的 
方法 不 能 被 覆盖 ， 因 此 HotSpot 解释 器 会 有 一 个 私有 的 字 市 码 ， 专 门 用 于 分 派 final 方法 。 
再 举 一 个 例子 。 语 言 规范 中 说 ， 如 果 一 个 对 象 要 使 用 终结 机 制 (有 关 终 结 机 制 的 讨论 ， 
参见 11.6 节 )， 则 必须 到 终结 子 系 统 中 注册 ， 而 且 该 注册 必须 在 超 类 0bject 的 构造 器 
0bject: :<init> 调用 完成 后 立即 进行 。 因 为 在 JVMTI 和 其 他 有 可 能 重 写字 节 码 的 情况 下 ， 
这 个 代码 位 置 可 能 就 不 是 那么 清楚 了 。 为 了 确保 严格 的 一 致 性 ，HotSpot 有 一 个 私有 的 字 
节 码 ， 用 来 标记 从 真正 的 0bject 构造 器 的 返回 。 


9.2 AOT 编 译 和 JIT 编 译 
本 节 将 讨论 和 比较 AOT 编译 和 JIT 编译 这 两 种 生成 可 执行 代码 的 替代 方案 。 


相对 而 言 ，AOT 编译 出 现 得 更 早 ， 而 JIT 编译 是 最 近 才 发 展 起 来 的 。 但 在 Java 出 现 的 20 
多 年 里 ， 这 两 种 方法 不 但 没有 停 涡 不 前 ， 反 而 彼此 借鉴 了 对 方 很 多 的 成 功 技术 。 



































9.2.1 AOT 编 译 


如 果 有 过 C 和 C++ 等 语言 的 编程 经 验 ， 那 你 一 定 很 熟悉 AOT 编译 (你 可 能 只 称 其 为 “ 编 
译 ”)。 它 的 操作 过 程 是 这 样 的 : 一 个 外 部 程序 (编译 器 ) 获取 人 类 可 读 的 程序 源码 ， 并 直 
接 输 出 可 执行 的 机 器 代码 。 


AOT 编译 源 代码 意味 着 你 只 有 一 次 机 会 来 利用 任何 潜在 的 优化 。 

















你 可 能 希望 生成 一 个 你 打算 运行 在 目标 平台 和 处 理 器 架构 上 的 可 执行 程序 ， 这 些 与 目标 平 
台 紧 密 相关 的 二 进 制 文件 能 够 利用 任何 处 理 器 专 有 的 特性 来 提高 程序 的 运行 速度 。 

然而 在 大 多 数 情 况 下 ， 在 可 执行 文件 的 生成 过 程 中 ， 并 没有 它 所 要 运行 的 目标 平台 的 信 
息 。 因 此 ，AOT 编译 必须 保守 地 选择 哪些 处 理 器 特性 可 供 使 用 。 如 果 在 编译 代码 时 假设 某 
特性 是 可 用 的 ， 然 而 在 运行 时 ， 当 前 处 理 器 并 没有 这 些 特性 ， 那 二 进 制 文件 就 根本 无 法 











些 
运 休 。 


这 就 导致 了 AOT 编译 的 二 进 制 文件 通常 无 法 充分 利用 CPU 的 能 力 ， 而 六 在 的 性 能 提升 也 
只 能 是 纸上谈兵 了 。 











9.2.2 JIT 编 译 


JIT 编译 是 一 种 通用 的 技术 ， 其 程序 (通常 是 从 某 种 方便 的 中 间 格 式 ) 在 运行 时 被 转换 为 
高 度 优化 的 机 器 代码 。HotSpot 和 大 多 数 其 他 主流 的 生产 级 JVM 在 很 大 程度 上 依赖 这 种 
技术 。 

这 种 技术 在 运行 时 收集 程序 的 有 关 信 息 ， 并 进行 性 能 剖析 (profile)， 该 剖析 可 用 于 确定 程 
序 中 哪些 部 分 使 用 频率 较 高 且 能 从 优化 中 获 益 最 多 。 


该 技术 被 称 为 剖析 制导 优化 。 














由 于 JITI 子 系统 与 运行 中 的 程序 共享 虚拟 机 资源 ， 因 此 剖析 的 成 本 以 及 执行 任何 优化 所 付 
出 的 成 本 都 要 和 预期 的 性 能 收益 保持 平衡 。 

由 于 将 字 节 码 编译 成 原生 代码 的 成 本 是 在 运行 时 消耗 的 ， 而 所 消耗 的 资源 (CPU 周期 、 内 
存 ) 原本 可 以 用 于 应 用 程序 本 身 的 执行 ， 因 此 需要 谨慎 执行 JIT 编译 。 虚 拟 机 会 收集 与 应 
用 程序 相关 的 统计 数据 (寻找 “热点 ”) 以 了 解 最 佳 的 优化 位 置 。 

回忆 一 下 图 2-3 所 示 的 整体 架构 : 剖析 子 系统 在 记录 哪些 方法 正在 运行 。 如 果 一 个 方法 的 
调用 次 数 超过 了 某 个 国 值 ， 从 而 符合 了 编译 条 件 ， 那 么 代码 生成 子 系统 就 会 启动 一 个 编译 
线程 ， 将 字 市 码 转换 为 机 器 码 。 


现代 版 本 的 javac， 其 设计 就 是 要 生成 “思春 的 字 节 码 ”(dumb bytecode)。 
虽然 它 所 执行 的 优化 非常 有 限 ， 但 提供 了 一 个 易于 JIT 编译 器 理解 的 程序 
表示 。 
































我 们 在 5.1 市 介绍 了 PGO 导致 的 JVM 预 热 问题 。 应 用 程序 刚 启动 时 ， 性 能 会 有 一 段 时 间 
不 太 稳定 ， 这 种 现象 经 常 导致 Java 开发 人 员 提 出 这 样 的 问题 : 我 们 不 能 把 编译 好 的 代码 保 
存 到 磁盘 上 ， 在 应 用 程序 下 次 启动 时 再 使 用 吗 ? 或 者 每 次 运行 应 用 程序 时 都 要 重新 运行 优 
化 和 编译 决策 不 是 很 浪费 吗 ? 

关键 是 ， 所 提 的 这 些 问 题 都 隐 含 了 一 些 关 于 运行 应 用 程序 代码 的 性 质 的 基本 假设 ， 而 这 些 
假设 通常 是 不 正确 的 。 接 下 来 通过 一 个 金融 行业 的 例子 来 说 明 这 个 问题 。 
美国 的 失业 率 数据 每 月 公布 一 次 。 发 布 非 农 就 业 数据 (NFP) 的 这 一 天 ， 交 易 系 统 中 的 流 
量 非 比 寻常 ， 而 且 在 当月 的 其 他 时 间 里 通常 不 会 再 出 现 这 种 情况 。 如 果 保 存 了 另外 一 天 的 
优化 ， 并 在 NFP 发 布 当天 运行 该 优化 ， 则 其 效果 可 能 不 如 刚刚 计算 出 来 的 优化 效果 好 。 这 
将 导致 使 用 预先 计算 的 优化 的 系统 实际 上 没有 使 用 PGO 的 应 用 程序 具有 竞争 力 。 


应 用 程序 的 性 能 在 不 同 的 应 用 程序 运行 之 间 存 在 显著 差异 的 行为 非常 常见 。 它 表明 ， 像 
Java 这 样 的 环境 应 该 让 开发 人 员 尽 量 不 受 此 类 领域 信息 的 影响 。 

因此 ，HotSpot 不 会 尝试 保存 任何 剖析 信息 ， 相 反 ， 它 会 在 虚拟 机 关闭 时 将 其 丢弃 ， 所 以 
每 次 都 必须 从 头 开始 重新 建立 剖析 信息 。 
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9.2.3 比较 AOT 和 JIT 


AOT 编译 的 优点 是 相对 简单 易 懂 。 机 器 码 直接 从 源 代 码 生 成 ， 与 编译 单元 相对 应 的 机 器 码 
可 以 直接 以 汇编 的 形式 获得 ， 从 而 让 代码 具有 直接 的 性 能 特征 成 为 可 能 。 

当然 ， 有 得 必 有 失 ，AOT 编译 也 意味 着 放弃 对 有 价值 的 运行 时 信息 的 访问 ， 而 这 些 信 息 
有 助 于 做 出 优化 决策 。 现 在 gcc 和 其 他 编译 器 中 也 开始 应 用 诸如 链接 时 优化 (link-time 
optimization，LTO) 和 某 种 形式 的 PGO 等 技术 ， 不 过 与 HotSpot 中 的 相关 技术 相 比 ， 它 们 
还 处 于 早期 开发 阶段 。 

在 AOT 编译 过 程 中 ， 针 对 处 理 器 的 特定 特性 ， 将 产生 一 个 只 与 该 处 理 器 兼容 的 可 执行 文 
件 。 这 种 技术 对 于 要 求 低 延迟 或 极端 性 能 的 应 用 程序 很 有 用 。 如 果 构 建 应 用 程序 所 用 的 硬 
件 和 它 的 运行 环境 完全 相同 ， 那 么 编译 器 可 以 利用 所 有 可 用 的 处 理 器 进行 优化 。 


然而 ， 这 种 技术 并 不 能 扩展 ， 如 果 想 在 一 系列 目标 架构 上 实现 性 能 最 大 化 ， 则 需要 为 每 个 
架构 生成 一 个 单独 的 可 执行 文件 。 


相 比 之 下 ，HotSpot 可 以 在 新 处 理 器 特性 发 布 时 为 它们 添加 优化 ， 而 应 用 程序 不 必 重 新 编 
译 其 类 文件 和 JAR 包 来 利用 这 些 特性 。 随 着 JIT 编译 器 的 改进 ， 很 容易 发 现在 HotSpot 虚 
拟 机 的 各 个 新 版 本 中 ， 程 序 性 能 在 显著 提高 。 

接 下 来 再 来 讨论 “Java 程序 不 能 被 AOT 编译 ”这 个 流传 已 久 的 座 论 。 事 实 上 ， 提 供 对 
Java 程序 进行 AOT 编译 功能 的 商用 虚拟 机 已 经 出 现 好 几 年 了 ， 而 且 在 某 些 环境 中 ，AOT 
还 是 部 署 Java 应 用 程序 的 主要 途径 。 

最 后 ， 从 Java 9 开始 ，HotSpot 虚拟 机 已 经 开始 提供 AOT 编译 功能 了 ， 最 初 针 对 的 是 核 
心 JDK 类 。 这 是 向 着 从 Java 源 代 码 生 成 AOT 编译 的 二 进 制 文件 迈 出 的 、 相 当 有 限 的 第 一 
步 ， 不 过 这 也 代表 着 Java 开始 告别 过 去 普遍 使 用 的 传统 JIT 环境 。 


9.3 HotSpot JIT 基 础 


因为 HotSpot 中 的 基本 编译 单元 是 一 个 完整 的 方法 ， 所 以 一 个 方法 所 对 应 的 所 有 字 节 
码 都 会 被 一 次 性 地 编译 为 原生 代码 。HotSpot 还 支持 使 用 一 种 叫 作 栈 上 替换 (on-stack 
replacement，OSR) 的 技术 来 支持 热 循环 的 编译 。 

OSR 用 来 帮助 处 理 这 样 的 情况 : 一 个 方法 的 调用 频率 还 没有 多 到 可 以 触发 编译 ， 但 是 该 方 
法 中 包含 了 一 个 循环 ， 如 果 此 循环 体 本 身 就 是 一 个 方法 ， 那 么 它 就 可 以 被 编译 。 

HotSpot 使 用 klass 元 数据 结构 中 存在 的 虚 函 数 表 (由 对 象 的 oop 中 的 klass 字 指 向 ) 作为 
实现 JIT 编译 的 主要 机 制 ， 我 们 将 在 下 一 节 中 看 到 。 


9.3.1 _ Klass 字 、 虚 函数 表 和 指针 变换 


HotSpot 是 一 个 多 线程 的 C++ 应 用 程序 。 这 么 说 似乎 过 于 简单 ， 但 需要 记 住 的 是 ， 从 操作 
系统 的 角度 来 看 ， 每 一 个 正在 执行 的 Java 程序 实际 上 都 是 某 个 多 线程 应 用 程序 的 一 部 分 。 
即使 是 单线 程 应 用 程序 ， 也 总 和 多 个 虚拟 机 线程 一 起 执行 。 











































































































HotSpot 中 最 重要 的 线程 组 之 一 就 是 组 成 JIT 编译 子 系统 的 线程 ， 其 中 包括 探测 方法 何 时 
达到 编译 条 件 的 剖析 线程 ， 以 及 负责 生成 实际 机 器 码 的 编译 器 线程 本 身 。 

总 体 情况 是 ， 当 指示 进行 编译 时 ， 该 方法 会 被 放置 在 一 个 编译 器 线程 上 并 在 后 台 进 行 编 
译 ， 整 个 过 程 如 图 9-6 所 示 。 





JII 编 译 器 


编译 器 线程 


解释 器 


ey 














图 9-6: 单个 方法 的 简单 编译 
在 得 到 优化 的 机 器 代码 后 ， 相 关 klass 的 虚 函 数 表 (vtable) 中 的 条 目 会 被 更 新 ， 以 指向 新 
编译 的 代码 。 

vtable 的 指针 更 新 这 个 操作 有 个 略 显 奇怪 的 名 字 一 一 指针 变换 (pointer swizzling)。 


这 意味 着 对 该 方法 的 任何 新 调用 都 会 得 到 编译 版 本 的 代码 ， 而 当前 正在 执行 解释 版 本 代码 
的 线程 会 在 解释 模式 下 完成 当前 调用 ， 但 在 下 一 次 调用 时 会 使 用 新 的 编译 版 本 代码 。 
OpenJDK 已 经 被 广泛 移植 到 很 多 不 同 的 架构 上 ， 其 中 x86、x86-64 和 ARM 是 其 主要 的 目 
标 平 台 ， 同 时 对 SPARC、Power、MIPS 和 S390 也 有 不 同 程度 的 支持 。Oracle 官方 支持 
Linux、macOS 和 Windows 这 3 个 平台 作为 操作 系统 。 有 些 开源 项 目 本 身 支持 更 多 的 操作 
系统 ， 包 括 BSD 和 髓 入 式 系统 。 








9.3.2 ” JIT 编译 日 志 
一 个 所 有 性 能 工程 师 都 应 该 知道 的 重要 JVM 开关 是 : 


-XX:+PrintCompilation 
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这 将 导致 在 STDOUT (标准 输出 ) 上 生成 一 个 编译 事件 的 日 志 ， 从 而 使 工程 师 可 以 基 


解 正在 编译 的 内 容 。 





由 





本 了 


例如 ， 如 有 果 这 样 调 用 示例 3-1 中 的 缓存 的 例子 : 


java -xx:+PrintCompilation optjava.Caching 2>/dev/null 


那么 产生 的 日 志 (在 Java 8 下 ) 看 起 来 将 是 这 样 的 : 





56 
57 
58 
59 
60 
60 
60 
60 
60 
60 1 
61 10 
66 11 
67 12 
68 13 
74 14% 
74 15 
75 16 % 
76 17 % 
76 14% 


‘OO~=OUPAODPpp 


LO 上 www 请 口 WwWww ww WwW 


java. Lang. 
java. Lang. 
java. Lang. 
.String::charAt (29 bytes) 


java. lang 


java. Lang. 
java. Lang. 
.AbstractStringBuilder::ensureCapacityInternal (27 bytes) 
java. Lang. 
java. Lang. 
java. Lang. 
java. Lang. 
.AbstractStringBuilder::append (50 bytes) 


java. lang 


java. lang 


java. Lang. 
java. Lang. 


Object::<init> (1 bytes) 
String::hashCode (55 bytes) 
Math: :min (11 bytes) 


String::length (6 bytes) 
String::indexOof (70 bytes) 


System::arraycopy (native) (static) 
Object::<init> (1 bytes) 

Object::<init> (1 bytes) made not entrant 
String::equals (81 bytes) 


String::getChars (62 bytes) 
String::<init> (82 bytes) 


optjava.Caching::touchEveryLine @ 2 (28 bytes) 
optjava.Caching::touchEveryLine (28 bytes) 
optjava.Caching::touchEveryLine @ 2 (28 bytes) 
optjava.Caching::touchEveryItem @ 2 (28 bytes) 
optjava.Caching::touchEveryLine @ -2 (28 bytes) made not entrant 








请 注意 ， 由 于 绝 大 多 数 的 JRE 标准 库 是 用 Java 编写 的 ， 因 此 它们 可 以 与 应 用 程序 代码 
起 进行 JIT 编译 。 所 以 如 果 你 在 编译 后 的 代码 中 看 到 很 多 非 应 用 方法 ， 不 要 感到 惊讶 。 


即使 是 在 一 个 非常 简单 的 基准 测试 上 ， 每 次 运行 所 得 到 的 被 编译 方法 的 确切 


集合 可 能 也 者 


PrintCompilation 的 输出 
虚拟 机 启动 以 来 以 毫秒 为 























顺序 。 其 他 的 一 些 字段 如 下 。 


。 n: 方法 是 原生 的 
: 方法 是 同步 的 


wm 


。 !: 方法 有 异常 处 理 程序 


SX 

















p 略 有 不 同 。 不 用 担心 ， 这 是 PGO 的 动态 特性 的 一 个 副作用 。 


会 以 相对 简单 的 方式 格式 化 。 首 先是 一 个 方法 被 编译 的 时 间 ( 自 
位 ) ， 接 下 来 是 一 个 数字 ， 表 示 该 方法 在 这 次 运行 中 被 编译 的 





: 方法 是 通过 栈 上 替换 编译 的 


PrintCompilation 提供 的 细节 有 限 。 要 访问 更 多 关于 HotSpot JIT 编译 器 所 做 决策 的 详细 信 


息 ， 可 以 使 用 : 


-XX:+LogCompilation 





这 是 一 个 诊断 选项 ， 必 须 使 用 一 个 附加 标志 来 解锁 : 
-XX:+UnLockDiagnostitcVMOptions 


这 指示 虚拟 机 输出 一 个 包含 XML 标记 的 日 志文 件 ， 该 标记 表示 从 字 节 码 向 原生 代码 转换 
过 程 中 与 队列 和 优化 相关 的 信息 。LogCompilation 标志 会 很 见长 ， 并 生成 数 百 MB 的 XML 
输出 。 
然而 ， 正 如 下 一 章 将 介绍 的 开源 的 JITWatch 工具 ， 它 可 以 解析 这 个 文件 ， 并 以 更 容易 理解 
的 格式 呈现 这 些 信息 。 

其 他 的 虚拟 机 ， 比 如 提供 了 Testarossa JIT 的 IBM J9， 也 可 以 将 JIT 编译 器 信息 记录 到 日 志 
中 ,不 过 JIT 日 志 并 没有 标准 的 格式 ， 因 此 开发 人 员 必 须 学 会 解释 每 种 日 志 格 式 ， 或 学 着 
使 用 适当 的 工具 。 


9.3.3 HotSpot 中 的 编译 器 

HotSpot JVM 中 实际 上 有 两 种 JIT 编译 器 ， 而 不 是 一 种 。 它 们 的 正式 名 称 分 别 为 Cl 和 C2， 
但 有 时 也 被 称 为 客户 端 编译 器 和 服务 器 编译 器 。 过 去 ，C1 用 于 GUI 应 用 程序 和 其 他 “ 客 
户 端 ”程序 ， 而 C2 用 于 长 期 运行 的 “服务 器 ”应 用 程序 。 现 代 的 Java 应 用 程序 通常 模糊 
了 这 一 区 别 ， 而 HotSpot 利用 了 这 一 新 趋势 。 


一 个 编译 后 的 代码 单元 被 称 为 nmethod (national method 的 缩写 ) 。 







































































两 种 编译 器 所 采取 的 一 般 方 法 都 是 依赖 一 个 关键 的 测量 值 来 触发 编译 : 一 个 方法 被 调用 的 
次 数 ， 或 者 是 调用 计数 (invocation count)。 一 旦 这 个 计数 器 达到 某 个 特定 国 值 ， 虚 拟 机 就 
会 收 到 通知 ， 并 考虑 将 该 方法 加 入 编译 队列 。 

编译 过 程 首 先 会 为 方法 创建 一 个 内 部 表示 ， 接 下 来 将 结合 在 解释 阶段 所 收集 的 剖析 信息 进 
行 优 化 。 然 而 ，C1 和 C2 所 产生 的 代码 的 内 部 表示 非常 不 同 。 与 C2 相 比 ，C1 被 设计 得 更 
简单 ， 编 译 时 间 也 更 短 。 权 衡 的 结果 是 ，C1 没有 像 C2 那样 得 到 充分 的 优化 。 

两 者 共同 使 用 的 一 种 技术 是 静态 单一 赋值 (static single assignment，SSA)。 这 本 质 上 是 将 
程序 转换 为 一 种 这 样 的 形式 : 每 个 变量 只 被 赋值 一 次 ， 不 会 发 生 重新 赋值 。 用 Java 的 编程 
术语 来 说 就 是 程序 实际 上 被 重 写 为 只 包含 final 变量 。 


9.3.4 HotSpot 中 的 分 层 编译 

自 Java 6 以 后 ，JVM 支持 一 种 称 为 分 层 编译 (tiered compilation) 的 模式 ， 甚 大致 内 容 通 
常 就 是 ， 在 解释 模式 下 运行 ， 直 到 触发 了 简单 的 C1 编译 形式 ， 当 C2 完成 了 更 高 级 的 优化 
时 ， 再 切换 到 使 用 该 编译 的 代码 。 

然而 ， 这 种 描述 并 不 完全 准确 。 可 以 从 源 文件 advancedThresholdPolicy.hpp 中 看 到 虚拟 机 
内 有 5 个 可 能 的 执行 层次 。 
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a 第 0 层 : 解释 器 

。 第 1 层 : C1， 开 启 全 部 优化 ， 不 开启 剖析 

。 第 2 层 : C1， 支持 调 用 和 回 边 计数 器 

。 第 3 层 : C1， 开 启 全 部 剖析 功能 

。 第 4 层 : C2 

表 9-6 显示 出 每 种 编译 路 径 并 不 会 利用 到 每 个 层次 。 
表 9-6: 编译 路 径 

路 径 描 述 














0-3-4 解释 器 ， 开 启 全 部 剖析 功能 的 C1，C2 

0-2-3-4 解释 器 ， 在 C2 忙碌 的 情况 下 ， 快 速 用 C1 编译 ， 然 后 是 完全 编译 的 C1， 然 后 是 C2 
0-3-1 简单 方法 

0-4 无 分 层 编 译 (直接 到 C2) 











在 简单 方法 的 情况 下 ， 该 方法 一 开始 会 像 往常 一 样 被 解释 ， 但 之 后 在 Cl 开启 全 部 剖析 功 
能 时 就 能 确定 该 方法 是 简单 方法 了 。 这 意味 着 C2 编译 器 显然 不 会 产生 更 好 的 代码 了 ， 因 
此 编译 终止 。 
分 层 编译 成 为 默认 设置 已 经 有 一 段 时 间 了 ， 在 性 能 调 优 过 程 中 通常 不 需要 调整 其 操作 。 但 
是 知道 其 操作 是 有 用 的 ， 因 为 它 经 常会 使 所 观察 到 的 编译 方法 的 行为 复杂 化 ， 并 可 能 误导 
粗心 的 工程 师 。 


9.4 代码 缓存 


JIT 编译 的 代码 被 存储 在 一 个 叫 作 代码 缓存 (code cache) 的 内 存 区 域 。 该 区 域 还 存储 了 属 
于 虚拟 机 本 身 的 其 他 原生 代码 ， 比 如 解释 器 的 部 分 内 容 。 


代码 缓存 在 虚拟 机 启动 时 设置 了 一 个 固定 的 最 大 值 。 它 不 能 超出 这 个 限制 ， 所 以 有 可 能 被 
填 满 。 如 果 被 填 满 ， 就 不 能 再 进行 JIT 编译 ， 并 且 未 编译 的 代码 只 能 在 解释 器 中 执行 。 这 
将 对 应 用 程序 的 性 能 产生 影响 ， 并 可 能 导致 它 明 显 低 于 潜在 的 最 大 性 能 。 
代码 缓存 被 实现 为 一 个 堆 ， 其 中 包含 一 个 未 分 配 区 域 和 一 个 空闲 链表 (指向 被 释放 的 块 )。 
当 原生 代码 被 删除 时 ， 该 代码 对 应 的 块 就 会 被 添加 到 空闲 链表 中 。 会 有 一 个 叫 作 清 扫 器 
(sweeper) 的 进程 来 负责 回收 这 些 块 。 
当 要 存储 一 个 新 的 原生 方法 时 ， 可 以 在 空闲 链表 中 搜索 一 个 足够 大 的 块 来 存储 编译 后 的 代 
码 。 如 果 没 有 找到 ， 那 么 只 要 代码 缓存 有 足够 的 空 闪 空间， 就 会 从 未 分 配 的 空间 中 创建 一 
个 新 块 。 
在 以 下 情况 中 ， 原 生 代码 可 以 从 代码 缓存 中 删除 : 

它 被 取消 了 优化 (基于 某 种 假设 进行 了 推测 性 优化 ， 结 果 证 明 条 件 不 成 立 ) ; 

它 被 替换 为 另 一 个 编译 版 本 (在 分 层 编译 的 情况 下 ) ; 
。 包含 该 方法 的 类 被 卸载 了 。 
























































可 以 使 用 以 下 这 个 虚拟 机 开关 来 控制 代码 缓存 的 最 大 值 : 
-XX:ReservedCodeCacheSize=<n> 
注意 ， 在 启用 了 分 层 编 译 之 后 ， 因 为 Cl 客户 端 编 译 器 的 编译 闷 值 更 低 ， 所 以 将 有 更 多 方 
法 达到 国 值 。 因 此 ， 会 设置 更 大 的 默认 值 来 容纳 这 些 额 外 的 编译 方法 。 
在 Linux x86-64 上 的 Java 8 中 ， 代 码 缓 存 默认 的 最 大 值 为 ; 


251658240 (240MB) when tiered compilation is enabled (-XX:+TieredCompilation) 
50331648 (48MB) when tiered compilation is disabled (-XX:-TieredCompilation) 


碎片 

在 Java 8 和 更 早 的 版 本 中 ， 如 果 C1 编译 器 生成 的 很 多 中 间 编 译 结果 在 被 C2 编译 的 结果 
取代 之 后 被 移 除 ， 那 么 在 代码 缓存 中 就 会 产生 很 多 碎片 。 这 可 能 会 导致 未 分 配 的 区 域 被 耗 
尽 ， 并 且 使 所 有 的 空 亲 空间 都 在 空闲 链表 中 。 

此 时 ， 代 码 缓存 分 配器 将 不 得 不 遍历 链表 ， 直 到 找到 一 个 足够 大 的 块 来 容纳 新 编译 的 原生 
代码 。 反 过 来 ， 清 扫 器 也 必须 做 更 多 的 工作 来 扫描 以 寻找 可 以 回收 到 空闲 链表 中 的 块 。 
最 后 ， 不 管 是 哪 种 垃圾 收集 机 制 ， 如 果 不 对 内 存 块 进行 迁移 ， 都 会 受到 碎片 的 影响 ， 代 码 
缓存 也 不 例外 。 

如 果 没 有 压缩 (compact) 整理 方案 ， 代 码 缓存 就 会 出 现 碎片 化 ， 进 而 可 能 导致 编译 停止 ， 
毕 竞 这 只 是 缓存 耗 尽 的 另 一 种 形式 。 


9.5 简单 JIT 调 优 


在 进行 代码 调 优 练习 时 ， 要 确保 应 用 程序 确实 利用 了 JIT 编译 的 优势 相对 来 说 是 比较 容 
易 的 。 

简单 的 JIT 编译 调 优 的 一 般 原 则 很 简单 : 任何 想 要 编译 的 方法 ， 都 应 该 拿 到 足够 的 资源 来 
操作 。 为 了 达到 这 个 目的 ， 请 按照 下 面 这 个 简单 的 检查 清单 来 检查 。 

1. 首先 打开 PrintCompilation 开关 并 运行 应 用 程序 。 

2. 收集 显示 哪些 方法 被 编译 的 日 志 。 

3. 现在 通过 ReservedCodeCacheSize 来 增加 代码 缓存 的 大 小 。 

4 

5 

































































. 重新 运行 应 用 程序 。 
. 查看 缓存 增 大 后 已 编译 方法 的 集合 。 
性 能 工程 师 需要 考虑 JIT 编译 所 固有 的 、 轻 微 的 不 确定 性 。 牢 记 这 一 点 ， 我 们 很 容易 就 能 
观察 到 一 些 明显 的 迹象 ， 
当 缓存 大 小 增加 时 ， 已 编译 方法 的 集合 是 否 以 某 种 有 意义 的 方式 变 大 了 ? 
， 是 否 所 有 对 主事 务 路 径 非常 重要 的 方法 都 被 编译 了 ? 
如 果 已 编译 方法 的 数量 并 没有 随 着 缓存 大 小 的 增加 而 增加 (说 明代 码 缓存 没有 被 充分 利 
用 )， 那 么 只 要 负载 模式 具有 代表 性 ，JIT 编译 器 就 不 会 缺乏 资源 。 
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此 时 应 该 可 以 直接 确认 所 有 属于 事务 热 路 径 上 的 方 





关闭 。 





法 都 出 现在 编译 日 志 中 了 。 如 果 没 有 ， 
那么 下 一 步 就 是 确定 根本 原因 一 一 为 什么 这 些 方法 没有 被 编译 。 


实际 上 ， 这 个 策略 就 是 通过 保证 JVM 不 会 耗 尽 代码 缓存 空间 ， 从 而 确保 JIT 编译 永远 不 会 








本 书 最 后 还 将 遇 到 更 复杂 的 技术 ， 尽 管 Java 版 本 之 间 存 在 一 些 细微 的 差异 ， 但 简单 的 JIT 


调 优 方法 可 以 帮助 提升 大 量 应 用 程序 的 性 能 。 


9.6 小 结 





JVM 的 初始 代码 执行 环境 是 字 节 码 解释 器 。 本 章 探 讨 了 解释 器 的 基础 知识 ， 因 为 要 正确 理 
解 JVM 的 代码 执行 ， 掌 担 字 节 码 如 何 工作 的 知识 是 必 不 可 少 的 。 此 外 ， 我 们 还 介绍 了 JIT 


编译 的 基本 理论 。 





然而 ， 对 于 大 多 数 性 能 工作 而 言 ，JIT 编译 的 代码 的 行为 远 比 解释 器 的 任何 方面 重要 。 下 




















一 章 将 在 本 章 介绍 的 基础 上 ， 深 入 研究 JIT 编译 的 到 








E 论 与 实践 。 


对 于 许多 应 用 程序 而 言 ， 本 章 所 演示 的 针对 代码 缓存 的 简单 调 优 技术 已 经 足够 了 。 但 对 于 
那些 对 性 能 特别 敏感 的 应 用 程序 来 说 ， 可 能 还 需要 对 JIT 行为 进行 更 深入 地 探索 。 下 一 章 
将 介绍 一 些 对 要 求 更 严格 的 应 用 程序 进行 调 优 的 工具 和 技术 。 











第 10 章 


理解 即时 编译 





本 章 将 深入 介绍 JVM 中 JIT 编译 器 的 内 部 工作 方式 。 大 部 分 内 容 直接 适用 于 HotSpot, 不 
过 并 不 保证 和 其 他 JVM 实现 一 致 。 

我 们 曾经 提 到 过 ， 与 JIT 编译 相关 的 科学 研究 已 经 相当 深入 ， 不 只 是 JVM， 很 多 现代 编程 
环境 也 用 到 了 JIT。 因 此 ， 很 多 JIT 技术 也 适用 于 其 他 JIT 编译 器 。 

因为 这 个 主题 非常 抽象 ， 而 且 技 术 上 也 很 复杂 ， 所 以 需要 一 些 工具 来 帮 有 我 们 理解 JVM 的 
内 部 工作 方式 ， 并 将 其 以 可 视 化 方式 表现 出 来 。 本 章 将 使 用 的 主要 工具 是 JITWatch， 我 们 
会 先 加 以 介绍 。 之 后 会 解释 具体 的 JIT 优化 和 特性 ， 并 演示 如 何 通 过 JITWatch 观察 该 技术 
及 其 效果 。 


10.1 认识 JITWatch 


JITWatch 是 一 款 开 源 的 JavaFX 工具 ， 由 本 书 的 作者 之 一 〈 克 里 斯 ' 纽 兰 ) 作为 个 人 项 目 
设计 和 构建 。 该 工具 现在 被 托管 在 AdoptOpenJDK 倡议 之 下 ， 作 为 伦敦 Java 社区 (London 
Java Community) 为 提高 Java 生态 系统 的 社区 参与 度 而 运行 的 程序 的 一 部 分 。 
JITWatch 能 够 让 开发 团队 或 DevOps 团队 更 好 地 理解 HotSpot 在 应 用 程序 执行 期 间 实 际 对 
字 节 码 做 了 什么 。 我 们 可 以 通过 调整 编译 开关 来 提高 应 用 程序 的 性 能 ， 但 是 必须 有 一 个 机 
制 来 衡量 我 们 所 做 的 任何 改进 。 

任何 要 分 析 的 方法 都 必须 在 热 路 径 (hot path) 中 使 用 ， 并 且 有 资格 进行 编 

译 。 被 解释 的 方法 不 适合 作为 严肃 优化 的 目标 。 
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JITWatch 为 比较 提供 了 客观 的 测量 结果 。 如 果 没 有 这 些 测量 结果 ， 我 们 就 可 能 陷入 4.4 市 





讨论 的 “忽略 大 局 ” 反 模 式 。 


JITWatch 的 工作 方式 是 ， 解析 和 分 析 正 在 运行 的 Java 应 用 程序 所 输出 的 HotSpot 详细 编译 
日 志 ， 并 在 JavaFX 图 形 用 户 界面 中 显示 出 来 。 这 意味 着 应 用 程序 在 运行 的 时 候 需 要 打开 























一 组 特定 的 标 示 志 o 























除了 应 用 程序 正常 运行 所 需 的 标志 之 外 ， 如 果 没 有 以 下 标志 ， 则 必须 为 JITWatch 添加 以 下 


-XX:+UnlockDiagnosticVMOptions -XX:+TraceClassLoading -XX:+LogCompilation 


在 打开 这 些 标志 后 ，JVM 将 生成 一 个 供 ITWatch 使 用 的 日 志 。 


10.1.1 基本 的 JITWatch 视 图 























元 行 疆 yh 
在 应 用 程序 运行 结束 后 ， 你 可 以 启动 ITWatch 和 加 载 日 志 ， 以 及 基于 应 用 程序 的 实际 运 和 
= bh 示 的 
生成 I 图 10-1 所 示 的 视图 。 
Ooe JITWatch - Just In Time Compilation Inspector 
andbox [OQpentog|] Start si Config| Timeline [Histo ‘TopList |Cache |NMethods ew ‘Suggestions (0) -Allocs (0) -Locks (0) 
V | Hide interfaces V| Hide uncompiled classes V Hide non JIT-compiled class members 
Packages VW addlintint) 
v WW (default package) ~ SimplelnliningTest() 
VW SimplelnliningTest 
vjava 
» VY javaio 
v WW javalang 
* WW javalang.ref 
~ AbstractStringBuilder 
ChareomrDats Queued Compiled Native Size Compiler Level 
ONANNOAOL 00:00:00.261 00:00:00.262 336 ct Level3 
WS 00:00:00.262 00:00:00.263 272 c1 Level1 
WwW sting 
System 
>» WW javautil 
psn 
t) 
Heap: 110/297M | Errors (0) | Stats || Reset VM is Oracle Corporation 1.8.0_152 EY 











10-1: JITWatch 主 窗 口 


除了 加 载 执行 完毕 的 程序 的 日 志 ，JITWatch 还 提供 一 个 叫 作 沙 箱 (sandbox) 的 环境 ， 用 
于 实验 JIT 行为 。 可 以 借助 这 个 视图 为 小 型 程序 快速 建立 原型 ， 看 看 JVM 所 做 出 的 JIT 决 





























策 。 图 10-2 是 一 个 示例 视图 。 








©O@e9 Sandbox - Code, Compile, Execute, and Analyse JIT logs 


NewEditor Open ‘Save Configure Sandbox Reset Sandbox | Java -| (Run| |View Output 


SimplelnliningTestjava X 


. // The Sandbox is designed to help you learn about the HotSpot JIT compilers。 站 | 
2 // Please note that the JIT compilers may behave differently when isolating a method | 
3 // in the Sandbox compared to running your whole apPlication. 
4 

5 public class SimpleTnliningTest 

6 { 

7 public SimpleInliningTest () 

8 

9 int sum = 0; 

10 

于 // 1 000 000 is F4240 in hex 

12 for (int 1 = 0; 1i<1 000 000; i++) 

3 { 

14 sum = this.add(sum, 99); // 63 hex 

15 } 

16 

ER System.out .println("Sum:" + sum); 

18 & 

19 

20 public int add(int a, int b) 
21 { 
22 return a + b; 
23 } 
24 
25 public static void main(String[] args) 
26 { 


Sandbox ready 
Disassembler available: /Library/Java/JavaVirtualMachines/jdk1.8.0 152.jdk/Contents/Home/jre/lib/server/hsdis-amd64.dylib 











10-2: JITWatch 沙 箱 


作为 加 载 已 有 日 志文 件 的 蔡 代 方案 ， 沙 箱 工 作 流 程 支 持 创建 或 加 载 一 个 用 Java 或 其 他 支持 
的 JVM 语言 编写 的 程序 。 

点 击 运行 (Run) 按钮 ，JITWatch 会 执行 以 下 操作 。 

1. 把 你 的 程序 编译 为 字 节 码 。 

2. 在 JVM 上 执行 该 程序 ， 打 开 JIT 日 志 。 

3. 把 JIT 日 志文 件 加 载 到 JITWatch 中 进行 分 析 。 

有 些小 的 改变 可 能 会 影响 JVM 所 做 的 优化 选择 ， 沙 箱 就 是 为 了 对 这 些 改变 进行 快速 反 
馈 而 设计 的 。 除 了 Java 之 外 ， 你 还 可 以 通过 配置 Scala、Kotlin、Groovy 和 JavaScript 
(Nashorn) 的 路 径 来 使 用 沙 箱 。 

沙 箱 非 常 有 用 ， 所 以 你 应 该 注意 编辑 窗口 中 显示 的 警告 。 请 记 住 
运行 的 代码 ， 其 表现 可 能 与 真实 应 用 有 很 大 不 同 。 











和 


， 在 沙 箱 中 























沙 箱 还 支持 对 控制 JIT 子 系统 的 虚拟 机 开关 进行 实验 (参见 图 10-3)。 例 如 ， 通 过 修改 沙 
箱 的 配置 可 以 改变 JVM 的 JIT 行为 ， 其 中 包括 : 


。 输出 反 汇 编 原 生 方 法 〈 需 要 在 JRE 中 安装 一 个 反 汇 编 二 进 制 工具 ， 如 hsdis) ， 还 可 以 选 
择 汇 编 语 法 ， 

。 和 窗 盖 JVM 默认 设置 的 分 层 编译 (使 用 Cl 和 C2 JIT 编译 器 ) ; 

。 禁用 压缩 指针 (这样 可 以 去 掉 地 址 移 位 指令 ， 让 汇编 代码 更 易 读 ) ; 
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时 禁用 栈 上 替换 ， 
。 有 覆盖 内 联 的 默认 限制 。 





[3] Sandbox Configuration 
Compile and Runtime Classpath 


/Users/chris/jitwatch/sandbox/classes Add File(s) 
Add Folder 


Remove 





Configure VM Languages 


Clojure Groovy JRuby Java 
JavaScript Kotlin Scala 

| Show Disassembly AT&T syntax (®) Intel syntax 

Tiered Compilation: ®) VM Default ( ) Always ( ) Never 

Compressed Oops: ®) VM Default Always Never 

Background JIT: VM Default Always \®) Never 

On Stack Replacement: ®) VM Default Always Never 

Disable Inlining MaxlnlineSize: 35 FreqlnlineSize: 325 

Compile Threshold: 10000 


Extra VM switches: 


Cancel Save 
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修改 这 些 设置 会 对 JVM 的 性 能 产生 很 大 的 影响 。 除 了 极端 情况 之 外 ， 不 建 
议 在 生产 系统 中 修改 它们 。 即 使 是 在 极端 情况 下 ， 如 果 没 有 进行 充分 的 测 
试 ， 也 不 应 该 修改 它们 。 

















沙 箱 与 正常 运行 的 JVM 应 用 程序 还 有 一 个 区 别 ， 即 当 运 行 完 整 的 应 用 程序 时 ，JVM 能 够 
在 更 多 的 代码 上 组 合 使 用 各 种 优化 ， 而 在 沙 箱 中 JVM 只 能 看 到 一 些 片段 。 激 进 的 JIT 编译 
器 (如 C2) 甚至 可 以 首先 应 用 一 组 优化 ， 使 优化 器 能 够 看 到 更 大 范围 的 程序 代码 。 


比如 ， 内 联 技术 会 将 方法 合并 到 调用 位 置 。 这 意味 着 优化 器 现在 可 以 考虑 进一步 的 优化 
(比如 进行 更 多 内 联 或 其 他 形式 ) 了 ， 而 这 些 优化 在 内 联 之 前 并 不 明显 。 反 过 来 ， 这 也 意味 
着 JIT 编译 器 会 以 不 同方 式 对 待 沙 箱 中 只 有 无 关 紧 要 的 内 联 行为 的 玩具 应 用 程序 ， 以 及 具 
真正 内 联 的 真实 应 用 中 的 方法 。 
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因此 ， 与 沙 箱 相 比 ， 大 多 数 从 业者 更 希望 有 一 个 可 以 对 应 月 
幸运 的 是 ，JITWatch 的 主 视 
何 被 编译 成 字 节 码 和 











图 功能 非常 强大 ,1 











1 作 TriView。 这 个 视图 会 
[上 编 代 码 的 。 示 例如 图 10-4 所 示 ， 它 可 以 证 明 JIT 编译 器 删除 了 一 些 
































程序 编译 了 解 更 深入 的 视图 。 
显示 源 代码 是 如 














、 - | > a ~ 2 加 
不 必要 的 对 象 分 配 一 一 这 是 现代 JVM 中 的 一 项 重要 优化 ， 本 章 后 面 会 介绍 。 
四 目 @ TriView - Source, Bytecode, Assembly Viewer - JITWatch 
Class: | nineElimAlloc Member | inner(intind) 
YSource [VBytecode [V/Assembly [Chain| |Journal| [LNT| linlined into Mouseover Bytecode size Native size Compile time 
B72 ms 

















‘Bytecode (double ciick for JVM spec) = Assembly IViLabels [#2(C2llevel4) ~ 
Es er 对 | 








Mounted class version: 52.0 (Java 8) public long inner(int,int) compiled with C2 

















10-4: JITWatch TriView 








JITWatch 支持 可 视 化 地 查看 每 个 编译 后 的 方法 在 代码 缓存 中 的 存储 位 置 。 这 是 一 个 比较 新 


的 功能 ， 还 在 积极 开发 中 ， 目 前 的 视 








图 如 图 10-5 所 示 。 




















Code Cache Layout 








VShowC1 V ShowC2 | ZoomIn 








NMethods |44 








Compile ID 

Class 

Compiled Member 
Compilation # 


Compiler Used 





Zoom Out Reset Animate 











5 














Lowest Address | 10b8abb10 








Highest Address | 10b8cdfa8 





Address Range Size |141,142 
























































11 NMethod Address 
java.io.BufferedReader Native Size 
java.lang.String readLine(boolean) Queued at 

1of1 Prev” Next Compiled at 

C1 (Level 3) Elapsed Time 








10b8b9b90 








5960 bytes 








00:00:00.168 








00:00:00.193 











25ms 
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在 Java 8 和 更 早 的 版 本 中 ， 代 码 缓存 会 将 剖析 过 的 编译 方法 、 未 剖析 的 编译 方法 以 及 虚拟 
机 自己 的 原生 代码 保存 在 一 个 单独 的 区 域 中 。 

Java 9 引入 了 一 个 分 段 代码 缓存 ， 因 此 不 同类 型 的 原生 代码 会 存储 到 不 同 的 区 域 ， 以 减少 
碎片 和 清理 时 间 ， 并 改进 完全 编译 代码 的 局 部 性 。 第 15 章 在 深入 讨论 Java 9 的 特性 时 还 
会 探索 该 特性 。 











10.1.2 调试 JVM 和 hsdi 

如 果 想 更 深入 地 了 解 IT 子 系统 的 调 优 以 及 从 中 获得 统计 数据 ， 那 么 你 可 以 用 调试 版 的 
JVM 来 实现 这 一 目的 。 这 种 版 本 是 为 生成 产品 版 JVM 所 不 具备 的 调试 信息 而 构建 的 ， 
此 性 能 上 会 有 所 损失 。 

主要 的 JVM 厂商 一 般 不 提供 调试 版 虚拟 机 (Debug VM) 的 下 载 方 式 ， 但 是 可 以 从 
OpenJDK 源 代码 中 构建 HotSpot Debug JVM。 























Linux x86_64 平台 的 Debug VM 二 进 制 文件 可 以 从 作者 的 网 站 上 下 载 。 




















如 果 想 检查 JIT 编译 器 生成 的 反 汇 编 原生 代码 ， 则 需要 一 个 像 hsdis 这 样 的 反 汇 编 二 进 制 
工具 。 这 可 以 从 OpenJDK 源 代码 中 构建 出 来 ， 具体 说 明 见 JITWatch 维基 百科 上 的 文章 
“Building hsdis” 。 

要 让 虚拟 机 输出 方法 的 汇编 代码 ， 可 以 添加 如 下 开关 : 


-XX:+PrintAssembly 








将 原生 代码 反 汇 编 为 可 读 的 汇编 语言 代码 ， 这 是 在 JIT 编译 器 生成 该 方法 
之 后 直接 执行 的 。 该 操作 成 本 很 高 ， 并 且 会 影响 程序 的 性 能 ， 所 以 要 小 心 
使 用 。 














介绍 完了 JITWatch， 下 面 来 看 看 HotSpot JIT 编译 器 的 一 些 技术 细节 。 


10.2 介绍 JIT 编 译 
为 了 补充 JITWatch 中 已 编译 代码 的 视图 ， 性 能 工程 师 需要 了 解 虚拟 机 如 何 收集 数据 ， 以 及 
它 将 对 正在 执行 的 程序 进行 哪些 优化 。 


我 们 已 经 看 到 ，HotSpot 使 用 剖析 制导 优化 来 指导 JIT 做 出 编译 决策 。 在 后 台 ，HotSpot 将 
运行 程序 的 剖析 数据 存储 在 称 为 方法 数据 对 象 (method data object，MDO) 的 结构 中 。 


字 节 码 解释 器 和 C1 编译 器 使 用 MDO 记录 JIT 编译 器 在 确定 要 进行 什么 优化 时 使 用 的 信 
息 。MDO 存储 诸如 调用 的 方法 、 选 取 的 分 支 以 及 在 调用 点 中 观察 到 的 类 型 等 信息 。 


系统 会 维护 一 些 计数 器 〈counter) ， 用 来 记录 所 齐 析 属性 的 “热度 ”(hotness)， 甚 中 的 值 



































会 在 剖析 过 程 中 衰减 。 这 样 可 以 确保 方法 只 有 在 到 达 编 译 队 列 的 头 部 而 且 仍然 有 足够 的 热 
度 时 才 会 被 编译 。 








是 C2)。 

编译 器 会 基于 这 种 内 部 表示 对 代码 进行 大 量 优化 。HotSpot 的 JIT 编译 器 能 够 执行 许多 不 
同 的 现代 编译 器 优化 技术 ， 包 括 : 

。 内 联 

。 循环 展开 

。 逃逸 分 析 

。 锁 消 除 和 锁 合 并 

。 单 态 分 发 

。 内 部 函数 

。 栈 上 替换 

下 面 几 节 会 依次 进行 介绍 。 

当 遇 到 其 中 的 每 种 技术 时 ， 一 定 要 记 住 ， 大 多 数 优 化 部 分 或 完全 依赖 于 运行 时 的 信息 和 
支持 。 

HotSpot 中 的 两 个 JIT 编译 器 也 使 用 了 上 述 技术 的 不 同 子 集 ， 并 且 对 于 如 何 进行 编译 有 着 不 
同 的 理念 。 特 别 是 ，C1 不 会 进行 推测 性 优化 (speculative optimization)。 这 种 优化 的 使 用 
依赖 于 对 执行 特性 的 未 经 证 实 的 假设 。 激 进 的 优化 器 (比如 C2) 会 基于 观察 到 的 运行 时 
执行 情况 做 出 某 种 假设 ， 并 根据 这 一 假设 进行 优化 。 这 种 简化 的 假设 有 可 能 带 来 较 大 (其 
至 是 非常 大 ) 的 性 能 加 速 。 

假设 有 可 能 并 不 正确 ， 而 且 之 后 会 失效 ， 推 测 性 优化 总 是 会 用 “健全 性 检查 ”(sanity 
check) 来 避免 这 种 情况 发 生 ， 也 就 是 所 谓 的 守卫 (guard) 。 守 卫 会 确保 假设 仍然 成 立 ， 并 
在 每 次 运行 优化 的 代码 之 前 进行 检查 。 

如 果 守 卫 失 效 ， 编 译 后 的 代码 就 不 再 安全 ， 必 须 将 其 删除 。HotSpot 会 立即 取消 优化 
(deoptimize) ， 并 将 该 方法 降级 回 解释 模式 ， 以 防止 任何 不 正确 的 代码 被 执行 。 


10.3 内 联 

内 联 (inlining) 是 这 样 的 过 程 : 选 定 某 个 被 调用 方法 (callee)， 将 其 内 容 复 制 到 被 调用 
处 ， 即 调用 点 中 。 

这 就 去 掉 了 与 方法 调用 相关 的 开销 ， 虽 然 不 是 很 大 ， 但 包括 如 下 几 个 方面 : 


。 设置 要 传递 的 参数 ， 

。 查找 要 调用 的 精确 方法 ; 

。 为 新 的 调用 栈 帧 (比如 局 部 变量 和 求 值 栈 ) 创建 新 的 运行 时 数据 结构 ; 
。 将 控制 转移 到 新 方法 ; 
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。 可 能 要 向 调用 者 返回 一 个 结果 。 


内 联 是 JIT 编译 器 所 应 用 的 最 重要 的 优化 之 一 ， 也 叫 网 关 优化 (gateway optimization ) ， 
为 它 通过 消除 方法 的 边界 ， 缩 短 了 相关 代码 的 距离 。 


考虑 如 下 代码 : 


int result = add(a, b); 





private int add(int x, int y) { 
return x + y; 


} 
内 联 优 化 会 将 add() 的 方法 体 复制 到 它 的 调用 点 中 ， 实 际 上 得 到 : 


int result = a + b; 


HotSpot 的 内 联 编译 器 优化 支持 开发 人 员 编 写 组 织 清 晰 、 可 复 用 的 代码 。 它 代表 的 理念 是 ， 
开发 人 员 不 需要 手动 进行 细微 的 优化 。 相 反 ，HotSpot 使 用 自动 化 的 统计 分 析 来 确定 相关 
代码 何 时 应 该 放 在 一 起 。 内 联 也 进而 拓宽 了 其 他 优化 的 范围 ， 包 括 : 


。 逃逸 分 析 (escape analysis ) 


。 死 代码 消除 (dead code elimination，DCE ) 
。 循环 展开 (loop unrolling) 
。 锁 消 除 (lock elision ) 


10.3.1 内 联 的 限制 

有 了 时 虚拟 机 需要 对 内 联 子 系统 施加 一 些 限制 。 比 如 ， 虚 拟 机 可 能 需要 控制 ， 

。 JIT 编译 器 优化 一 个 方法 所 花 的 时 间 ， 

生成 的 原生 代码 的 大 小 (这 会 进而 影响 代码 缓存 所 占用 的 内 存 多 少 )。 

如 果 没 有 这 些 约束 ， 编 译 器 可 能 就 会 陷入 很 深 的 内 联 调用 链 中 不 能 自拔 ， 或 是 会 因 巨 大 
的 原生 方法 而 填 满 代码 缓存 。JIT 编译 资源 非常 宝贵 ， 这 个 一 般 性 原则 在 这 里 再 次 发 挥 
作用 。 

HotSpot 在 决定 是 否 内 联 某 个 方法 时 会 考虑 几 个 因素 ， 包 括 : 

。 要 内 联 的 方法 的 字 节 码 大 小 ， 

。 要 内 联 的 方法 在 当前 调用 链 中 的 深度 ， 

，。 该 方法 的 编译 版 本 在 代码 缓存 中 已 占用 的 空间 量 。 

在 图 10-6 中 ， 我 们 可 以 看 到 JITWatch 以 可 视 化 的 方式 显示 出 ，JIT 编译 器 将 一 个 方法 调 
用 链 内 联 到 最 终 调用 的 地 方 ， 不 过 拒绝 了 内 联 我 们 有 意 创 建 的 一 个 超过 最 大 默认 限制 的 
方法 。 




































































【£22 Compile Chain: InliningChains() #2 (C1 / Level 3) 
InliningChains() [#2 (C1/Level3) 面 























10-6: 内 联 到 父 方法 中 的 方法 调用 链 
这 种 深度 的 内 联 非常 典型 ， 有 助 于 拓宽 优化 范围 。 


10.3.2 ” 调 优 内 联 子 系统 


在 确定 了 所 有 重要 的 方法 都 已 编译 ， 并 且 调 整 了 代码 缓存 以 容纳 应 用 程序 中 最 显著 的 方法 
后 ， 下 一 步 就 是 考虑 内 联 。 表 10-1 显示 了 用 于 控制 内 联 子 系统 行为 的 基本 JVM 开关 。 这 
些 开关 可 以 用 来 扩展 9.5 节 所 介绍 的 简单 JIT 调 优 技术 。 


表 10-1: 内 联 开关 











证 并 默认 值 ( JDK 8，Linux x86_64 ) 解 释 

-XX:MaxInLineSize=<n> 35 字 节 的 字 节 码 内 联 方法 最 大 为 这 个 值 

-XX:FreqInlinesize=<n> ”325 字 节 的 字 节 码 内 联 “ 热 ”方法 (频繁 调用 的 方法 ) 
最 大 为 这 个 值 








-XX:InLinesmallCode=<n> ”1000 字 市 的 原生 代码 ( 非 分 层 编译 ) ， 如 果 最 后 一 层 编译 在 代码 缓存 中 占用 的 
2000 字 节 的 原生 代码 〈 分 层 编 译 ) 空间 已 经 超过 这 个 值 ， 不 要 内 联 方法 
用 栈 帧 的 深度 不 能 超过 这 个 值 


如 果 有 重要 的 方法 没有 被 内 联 (比如 因为 “有 点 太 大 ”， 超 过 了 上 默认 限制 而 无 法 内 联 )， 那 
么 在 某 些 情况 下 ， 可 能 需要 调整 JVM 参数 让 这 些 方法 内 联 。 在 这 些 情况 下 ， 我 们 会 从 调 
整 -XX:MaxInLineSize 或 -XX:FreqInLineSize 入 手 ， 并 验证 这 样 的 改变 是 否 会 带 来 可 观测 
到 的 改进 。 


任何 调整 这 些 参数 的 调 优 工作 ， 都 必须 以 观测 到 的 数据 为 依据 。 没 有 考虑 实际 数据 ， 也 没 
有 证 明 修 改 参 数 的 价值 所 在 ， 这 就 是 “摆弄 开关 ” 反 模 式 的 核心 问题 (参见 4.5.2 市 )。 




















-XX:MaxInlineLevel=<n> 9 








甘 
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10.4 循环 展开 


一 旦 循环 中 的 任何 方法 调用 被 内 联 (在 可 能 的 情况 下 ) ， 编 译 器 就 能 更 好 地 了 解 每 次 循环 
迭代 的 大 小 和 成 本 。 基 于 这 些 信息 ， 它 可 以 考虑 展开 循环 (unrolling the loop) ， 以 减少 执 
行 时 必须 跳 回 到 循环 起 点 的 次 数 。 

每 一 次 向 后 跳 转 都 会 对 处 理 器 造成 不 良 影响 ，CPU 会 因为 这 个 跳 转 而 丢弃 流水 线 中 接 下 来 
的 指令 。 一 般 来 说 ， 循 环 体 越 得， 向 后 跳 转 的 相对 成 本 就 越 高 。 因 此 ，HotSpot 会 根据 以 
下 标准 来 决定 是 否 展开 循环 : 

。 循环 计数 器 变量 的 类 型 (通常 是 int 或 Long， 而 不 是 对 象 类 型 ) ; 

。 循环 步 长 (每 次 迭代 时 循环 计数 器 如 何 改变 ) ，; 

。 循环 内 出 口 点 (return 或 break) 的 数量 。 

考虑 一 些 示 例 方法 ， 按 顺序 读 取 数 组 中 的 数据 并 求 和 。 访 问 模式 在 汇编 语言 中 就 是 [base， 
index，offset] 寻 址 : 

。 base register ( 基 址 寄存 器 ) ， 包 含 数组 中 数据 的 起 始 地 址 ; 

。 index register (索引 寄存 器 ) ， 包 含 循环 计数 器 ( 乘 以 数据 类 型 的 大 小 ) ; 

。 offset ( 偏 移 ) ， 用 于 在 展开 后 的 每 次 访问 中 的 偏 移 。 


add rbx, QWORD PTR [base register + index register * size + offset] 





























循环 展开 行为 在 不 同 的 HotSpot 版 本 之 间 可 能 会 有 差异 ， 并 且 高 度 依赖 于 
架构 。 








给 定 一 个 在 Long[] 数组 上 执行 的 循环 ， 我 们 可 以 查看 循环 展开 的 条 件 。 当 循环 访问 数组 
时 ，HotSpot 可 以 通过 将 循环 分 成 3 个 部 分 来 消除 数组 边界 检查 ， 如 表 10-2 所 示 。 


表 10-2: 消除 边界 检查 











循环 的 不 同 部 分 。 是 否 进行 边界 检查 解释 

循环 前 是 执行 带 有 边界 检查 的 初始 迭代 

主 循环 填 使 用 循环 步 长 计算 在 不 需要 边界 检查 的 情况 下 能 执行 的 最 大 
迁 代 次 数 

循环 后 是 仍然 执行 带 有 边界 检查 的 迭代 








下 面 是 一 些 示 例 的 设置 代码 ， 用 于 创建 一 个 供 循环 迭代 使 用 的 数组 : 
private static final int MAX = 1 000 000; 
private Long[] data = new Long[MAX]; 
private void createData() 


{ 


java.util.Random random = new java.util.Random(); 





for (int i = 0; i < MAX; i++) 
data[i] = random.nextLong(); 


} 
我 们 可 以 使 用 一 个 JMH 基准 测试 来 比较 使 用 int 计数 器 或 Long 计数 器 在 同样 的 数组 上 执 
行 迭 代 的 性 能 : 

package optjava.jmh; 


import org.openjdk.jmh.annotations.*; 
import java.util.concurrent.TimeUnit; 


@BenchmarkMode(Mode.Throughput) 
@OutputTimeUnit(TimeUnit.SECONDS) 
@State(Scope.Thread) 

public class LoopUnrollingCounter 


{ 
private static final int MAX = 1_000_000; 
private Long[] data = new long[MAX]; 
@Setup 
public void createData() 
{ 
java.util.Random random = new java.util.Random(); 
for (int i = 0; i < MAX; i++) 
{ 
data[i] = random.nextLong(); 
} 
} 
@Benchmark 
public Long intStride1() 
{ 
long sum = 0; 
for (int i = 0; i < MAX; i++) 
{ 
sum += data[i]; 
} 
return sum; 
} 
@Benchmark 
public Long longStride1() 
{ 
long sum = 0; 
for (long Ll = 0; Ll < MAX; L++) 
{ 
sum += data[(int) 1]; 
} 
return sum; 
} 
} 
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结果 如 下 : 


Benchmark Mode Cnt Score Error Units 
LoopUnrollingCounter.intStride1 thrpt 200 2423.818 + 2.547 ops/s 
LoopUnrollingCounter.longStride1 thrpt 200 1469.833 + 0.721 ops/s 


使 用 int 计数 器 的 循环 每 秒 要 多 执行 近 64% 的 操作 。 
如 果 深 入 到 汇编 代码 中 ， 就 会 发 现 使 用 Long 计数 器 的 循环 体 不 会 被 展开 ， 并 且 循 环 中 还 会 
包含 一 个 安全 点 轮 询 。JIT 编译 器 插入 这 些 安全 点 检查 ， 以 减少 编译 后 的 代码 在 不 检查 安 
全 点 标志 的 情况 下 长 期 运行 的 可 能 性 (参见 7.2.1 市 )。 
其 他 微 基准 测试 可 能 会 使 用 可 变 步 长 ， 其 中 增 量 保存 在 一 个 变量 中 ， 而 不 是 使 用 一 个 编译 时 常 
量 。 使 用 可 变 步 长 ， 我 们 可 以 看 到 循环 没有 展开 ， 而 且 在 向 后 的 分 支 之 前 插入 了 一 个 安全 点 。 


循环 展开 小 结 
HotSpot 包含 一 些 针对 循环 展开 的 具体 优化 : 
它 可 以 优化 使 用 int、short 或 char 类 型 计数 器 的 计数 循环 ， 
它 可 以 展开 循环 体 ， 并 移 除 安全 点 轮 询 ， 
展开 循环 可 以 减少 向 后 分 支 的 数量 ， 也 就 减少 了 相关 的 分 支 预 测 成 本 ， 
。 移 除 安全 点 轮 询 可 以 进一步 减少 每 次 循环 迭代 要 完成 的 工作 。 
不 过 ， 你 应 该 始终 亲自 验证 这 些 示 例 的 效果 ， 而 不 是 假设 它们 适用 于 所 有 的 架构 和 HotSpot 
版 本 。 


10.5 “逃逸 分 析 

HotSpot 可 以 执行 基于 作用 域 的 分 析 ， 以 确定 革 个 方法 内 完成 的 工作 在 该 方法 的 边界 之 外 
是 否 可 见 以 及 是 否 有 副作用 。 这 种 逃逸 分 析 技术 可 以 用 来 确定 在 方法 内 分 配 的 对 象 在 该 方 
法 的 作用 域 之 外 是 否 可 见 。 

在 任何 内 联 发 生 之 后 ， 系 统 会 尝试 进行 逃逸 分 析 优 化 。 内 联 会 将 被 调用 方法 
的 方法 体 复 制 到 调用 点 中 ， 这 可 以 防止 仅 作 为 方法 参数 传 入 的 对 象 被 标记 为 


逃逸 。 
































在 逃逸 分 析 阶 段 ，HotSpot 将 可 能 会 逃逸 的 对 象 分 为 3 种 类 型 。 下 面 这 段 来 自 hotspot/src/ 
share/vm/opto/escape.hpp 的 代码 详细 描述 了 不 同 的 逃逸 情况 ; 


typedef enum { 




















NoEscape = 1，// 对 象 不 会 逃逸 出 方法 或 线程 ， 也 没有 被 传递 给 调用 。 
// 它 可 以 用 标量 替换 
ArgEscape = 2，// 对 象 不 会 逃逸 出 方法 或 线程 ， 但 是 作为 参数 被 传递 给 了 





// 调用 或 被 引用 了 ， 它 在 调用 期 间 不 会 逃逸 
GlobalEscape = 3 // 对 象 会 逃逸 出 方法 或 线程 











10.5.1 消除 堆 分 配 

在 紧密 的 循环 中 创建 新 对 象 会 给 内 存 分 配子 系统 带 来 压力 。 生 成 大 量 寿命 很 短 的 对 象 将 需 
要 频繁 地 执行 Minor GC 来 清理 它们 。 分 配 率 可 能 非常 高 ， 以 至 于 堆 的 新 生 代 被 填 满 ， 那 
么 这 些 寿 命 短 暂 的 对 象 就 会 过 早 地 晋升 到 老年 代 。 如 果 发 生 这 种 情况 ， 就 需要 开销 更 大 的 
整 堆 收集 来 请 理 它 们 。 

HotSpot 逃逸 分 析 优 化 的 设计 目的 是 让 开发 人 员 能 够 编写 符合 Java 习惯 的 代码 ， 而 无 须 担 
心 对 象 分 配 率 问题 。 

通过 证 明 一 个 已 分 配 的 对 象 不 会 逃逸 出 当前 方法 (被 归 类 为 NoEscape)， 虚 拟 机 可 以 应 
用 一 种 叫 作 标 量 替 换 (scalar replacement) 的 优化 。 对 象 中 的 字段 会 变 成 标量 值 ， 类 似 
于 它们 都 是 局 部 变量 而 非 对 象 字 段 。 然 后 ， 它 们 可 以 被 一 个 叫 作 寄存 器 分 配器 (register 
allocator) 的 HotSpot 组 件 安排 到 CPU 寄存 器 中 。 


如 果 没 有 足够 的 空闲 寄存 器 ， 那 么 标量 值 就 可 以 放 到 当前 的 栈 帧 上 (这 被 称 
为 栈 溢出 ，stack spill ) 。 


















































逃逸 分 析 的 目的 是 推断 出 是 否 可 以 避免 堆 分 配 。 如 果 可 以 ， 就 能 自动 将 对 象 分 配 在 栈 上 ， 
从 而 可 以 减少 一 点 垃圾 收集 的 压力 。 


我 们 来 看 一 个 对 象 分 配 的 例子 ， 因 为 Myobj 的 实例 不 会 离开 方法 作用 域 ， 所 以 会 被 归 类 为 


NoEscape: 








public long noEscape() { 
Long sum = 0; 


for (int i = 0; i < 1 000 000; i++) { 
My0bj foo = new My0bj(i); // foo 不 会 逃逸 出 该 方法 ， 即 NoEscape 
sum += foo.bar(); 


} 


return sum; 


J 
下 面 是 另 一 个 对 象 分 配 的 例子 ， 由 于 My0bj 的 实例 被 作为 参数 传递 给 了 extBar() 方法 ， 
此 它 被 归 类 为 ArgEscape。 


public Long argEscape() { 
Long sum = 0; 














for (int i = 0; i < 1 000 000; i++) { 

MyObj foo = new MyObj(i); 

sum += extBar(foo); // foo 被 作为 参数 传递 给 了 extBar (ArgEscape) 
} 


return sum; 
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如 果 在 执行 逃逸 分 析 之 前 ， 对 extBar() 的 调用 被 内 联 到 循环 体 中 ， 那 么 My0bj 的 实例 将 被 
归 类 为 NoEscape， 从 而 可 以 避免 在 堆 上 分 配 

10.5.2” 锁 与 逃逸 分 析 

HotSpot 能 够 使 用 逃逸 分 析 和 一 些 相关 技术 来 优化 锁 的 性 能 。 


这 些 优化 仅 应 用 于 内 置 锁 (即使 用 synchronized 的 锁 ) ， 不 适用 于 来 自 java. 
util.concurrent 的 锁 。 











可 应 用 的 主要 锁 优 化 包括 : 


。 移 除 不 会 逃逸 的 对 象 上 的 锁 ( 锁 消除 ，lock elision ) ; 
。 合并 使 用 同一 把 锁 的 连续 锁定 区 域 ( 锁 合 并 ，lock coarsening) ; 
。 检 测 重复 获取 同一 把 锁 但 是 没有 解锁 的 地 方 〈 艇 套 锁 ，nested lock ) 。 


当 同 一 个 对 象 上 出 现 连续 的 锁 时 ，HotSpot 会 检查 是 否 有 可 能 扩大 锁定 区 域 。 为 了 实现 这 
一 点 ， 当 HotSpot 遇 到 锁 时 ， 它 将 向 后 搜索 ， 看 看 是 否 有 同一 对 象 上 的 解锁 操作 。 如 果 有 ， 
那么 它 就 会 考虑 是 否 可 以 把 这 两 个 锁定 区 域 合并 起 来 以 得 到 一 个 更 大 的 区 域 。 


如 果 想 了 解 更 多 内 容 ， 可 以 阅读 Java 虚拟 机 规范 。 如 图 10-7 所 示 ， 我 们 可 以 直接 在 
JITWatch 中 看 到 这 种 效果 。 























































Oae TriView - Source, Bytecode, Assembly Viewer - JITWatch 
Class: | optjava.CoarsenedLocks Member ”CoarsenedLocks() 
罗 source [VBytecode [VAssembly [Chan| [oumal |LNT| [minedino| 局 Mouseover Bytecode size Native size Compile time 
[112 [oms 
= 全 
1 Package optjava; 31: monitorenter ~]|oxo0000001096c7658: sub rsp, ~ 
2 32: lload 1 0x00000001096c765c: mov 3, non aR (LBRONG 
3 arsenedLocks { re 4 0 
4 tic void main(string[] args) { 34: getfield 46 // Field random:Ljava/util/Rant 
5 rsenedLocks (); 37: invokevirtual #9 // Mechod java/util/Random.nex! 
6 } 40: i21 
7 41: ladd 
8 private java.util.Random random = new java | 42: 1store 1 vy r10d, DNORD PTR [r14+0x8] 2} impl3 








和 43: aload 4 p zl0dv0xf800c005 + {metadatal' 
10 。 private static final Object lock = new objl i + jne L0013 » 
了 46: goto 57 ? ~ optjava.CoarsenedLocks 








12 public CoarsenedLocks() MD 5 ox00000001096c7689: mov rl0d,0xf8000le5 ; {metadata('j 
13 人 51: aload 4 0x00000001096c768f s rg, 0xt 
14 long sum = 0 i 0x00000001096c7699 
15 54: aload 5 
16 for (inti = 0; 4 < 1000 000; 1++) 1 56: athrow 
17 57: getstatic 48 // Field lock:Ljava/lang/Objec! | 0x 
18 synchronized (lock) { a 
19 sum += random.nextInt (); 61: astore 4 
20 1 
21 64: lload_ 1 0000001096c76b7: movabs r10,0x108aeBBae 
65: aload_0 11 r10 
23 sum -= random,nextInt 人 ) 66: getfield 46 Field randon:TjavaJutiTARand yy 14,QNORD PTR [rap] 
24 69: invokevirtual 49。 // Method java/util/Randomnexi| | |: W 87ONORD PTR 【zepP+ 
25 1 72: 121 0x00000001096c76cd: data 
26 73: lsub 
27 Systemvout .println (sum) 74: lstore_1 L0001: inc r 
28  ) 75: aload 4 
29 1) 77: monitorexit ox00000001096c76d3: shr rbp, 0x10 
Ho 89 Dx00000001096c76d7: mov rlldvebp 
‘ne 6 0x00000001096c76da: movsxd r10,r11d 
83: aload 4 0x00000001096c76dd: mov rbp, rbx 
a ox00000001096c76e0: sub rbp,r10 ; OopMap{r14=0op off=163 


86: aload 6 
88: athrow ; -~ optjava.ct nedLoc 


a 沪 汉 Pe 


Mounted class version: 52.0 (Java 8) public CoarsenedLocks() compiled with C2 OSR 























10-7: 锁 合并 
锁 合并 优化 默认 是 开启 的 ， 不 过 可 以 使 用 虚拟 机 开关 -Xx: -EliminateLocks 将 其 禁用 ， 以 














查看 其 影响 。 
HotSpot 还 能 够 检测 到 在 同一 对 象 上 的 骨 套 锁 ， 并 移 除 内 部 的 锁 ， 因 为 当前 线程 已 经 在 外 
部 获取 到 了 这 把 锁 。 
在 撰写 本 书 时 ，Java 8 中 的 骨 套 锁 消 除 似乎 对 声明 为 static final 的 锁 和 
this 上 的 锁 都 有 效 。 





符 套 锁 优 化 默认 是 开局 的 ， 但 可 以 使 用 虚拟 机 开关 -XX: -EliminateNestedLocks 将 其 禁 
可 以 在 图 10-8 中 看 到 JITWatch 中 的 虑 套 锁 检 测 。 








Ooe TriView - Source, Bytecode, Assembly Viewer - JITWatch 
Class: | optjava.NestedLocks Member | NestedLocks() ~ 
网 source [VBytecode 网 Assemby [Chain| |Journal| [LNT| [minedino| [| Mouseover Bytecode size Native size Compile time 
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- ~ DIUBe 2a 
1 package optjavas i 
19: iload 3 mov rl0d, DWORD PTR [r14+0x8] ; impli 
3 public class NestedLocks { ; 站 
7 了 下 en pe 
Publie atactc ved main(stringl] args) ( 20: 1dc 47 1// int 1000000 cmp rl0d,Oxf800c005 ; {metadatal'c 
Nr 22: if_icmpge 95 0x000000010c2c7883: jne L0013 +*iload_ 3 
25: getstatic 48 // Field lock:Ljava/lang/Objec! ; ~ optjava.NestedLocks: :< 
28: dup 0x000000010c2c7889: mov ri0d, Oxf80001le5 ; {metadata('j 
二 29: astore r8, 0x0 
0 private javautil.Randon randon ~ nev Java.uti1.mand| ER ey 
32: lload_1 L0002 
10 private static final Object lock = new Object(); i 
者 Pp! 有 33: aload 0 QWORD PTR [rsp+OxB] ,r8 
em 34: getfield 46 // Field random:Ljava/util/Ran QWORD PTR [rsp],r14 
+ 37: invokevirtual #9 // Method java/util/Random.nex! ||oxo rdi, 0x795603398 ; (a 
40: i121 . 
14 long sum = 07 a 
一 42: lstore 1 
16 for (int i w 0; i < 1_000_000; i++) { 3 - 
9000- + getstati 8 el :Ljava/lan | loxoo000001 
村 和 J > $9// Field lock:Ljava/lang/Objec: 1 
18 sum += random nextInt (); A 5 
19 
50: lload_1 
加 ee random.nextInt (); Sl: aloed.0 
52: getfield #6 
区 55: invokevirtual 49 // Method java/util/Random.nexl ||oxo 
58: 121 
rp 3: et 
Bs di 60: lstore 
Be 61: aload 5 0x000000010c2 sub rbp,r10 ; OopMap{r14=0op off=163 
63: monitorexit 
64: goto 75 ; ~ optjava.NestedLocks: 
67: astore 6 
69: aload 5 
71: monitorexit 
72: aload 6 
74: athrow 1L0002: cmp r13d, 0xf4240 
75: aload 4 ox0o0000010c2c78f0: jge L0010 ;*if_icmpge 
77: monitorexit | ; ~ optjava.NestedLocks: :< 
. se an 
Mounted class version: 52.0 (Java 8) public NestedLocks() compiled with C2 OSR 











图 10-8: 消除 谋 套 锁 


HotSpot 会 自动 计算 何 时 可 以 安全 地 合并 或 消除 锁 。 像 ITWatch 这 样 的 工具 可 以 以 可 视 化 
方式 显示 出 锁 被 优化 的 位 置 ， 如 果 使 用 调试 版 的 JVM， 可 以 输出 与 锁 有 关 的 更 多 信息 。 


10.5.3 ”逃逸 分 析 的 限制 


和 其 他 优化 一 样 ， 逃 逸 分 析 也 需要 权衡 ， 因 为 每 一 次 分 配 ， 即 使 不 发 生 在 堆 上 ， 肯 定 会 发 
生 在 某 个 地 方 ， 而 CPU 寄存 器 和 栈 空 间 是 相对 稀缺 的 资源 。HotSpot 有 一 个 限制 ， 即 默认 
情况 下 ， 超 过 64 个 元 素 的 数组 将 无 法 从 逃逸 分 析 中 受益 。 这 个 大 小 可 以 用 如 下 的 虚拟 机 
开关 来 控制 ; 


-XX:EliminateAllocationArraySizeLimit=<n> 


考虑 一 个 热 的 代码 路 径 ， 基 中 会 分 配 一 个 临时 数组 ， 用 于 从 缓冲 区 读 取 数 据 。 如 果 该 数组 
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不 会 逃逸 出 当前 方法 的 作用 域 ， 则 逃逸 分 析 应 该 阻止 这 次 堆 分 配 。 然 而 ， 如 果 数 组 的 长 度 
超过 64 个 元 素 〈 即 使 这 些 元 素 没 有 全 部 用 到 ) ， 那 么 它 必须 存储 在 堆 上 ， 这 可 能 会 使 这 段 
代码 的 分 配 率 快速 增加 。 

在 下 面 的 JMH 基准 测试 中 ， 测 试 方法 会 分 配 3 个 大 小 分 别 为 63、64、65 的 不 会 逃逸 的 
数组 。 











之 所 以 要 测试 大 小 为 63 的 数组 ， 是 要 确保 大 小 为 64 的 数组 不 会 只 因为 内 存 
对 齐 的 缘故 而 快 于 大 小 为 65 的 数组 。 

















每 次 测试 只 使 用 前 两 个 数组 元 素 a[9] 和 a[1] ， 这 是 因为 逃逸 分 析 的 限制 只 考虑 数组 长 度 ， 
而 不 会 考虑 所 使 用 的 最 大 索引 : 


package optjava.jmh; 


import org.openjdk.jmh.annotations.*; 
import java.util.concurrent.TimeUnit; 


@State(Scope.Thread) 
@BenchmarkMode(Mode.Throughput) 
@OutputTimeUnit(TimeUnit.SECONDS) 
public class EscapeTestArraySize { 


private java.util.Random random = new java.util.Random(); 


@Benchmark 
public Long arraySize63() { 
int[] a = new int[63]; 


a[0] = random.nextInt(); 
a[1] = random.nextInt(); 


return a[0] + a[1]; 


3 


@Benchmark 
public Long arraySize64() { 
int[] a = new int[64]; 


a[0] = random.nextInt(); 
a[1] = random.nextInt(); 


return a[0] + a[1]; 

} 

@Benchmark 

public long arraySize65() { 
int[] a = new int[65]; 


a[0] = random.nextInt(); 





a[1] = rando 
return a[0] 


} 

















结果 显示 ， 一旦 数组 分 配 无 法 从 逃逸 


Benchmark 

EscapeTestArraySize. 
EscapeTestArraySize. 
EscapeTestArraySize. 


m.nextInt(); 


+ a[1]; 


Mode 
arraySize63 thrpt 
arraySize64 thrpt 
arraySize65 thrpt 


Cnt 
200 
200 
200 


免 分 析 优 化 中 受益 ， 性 能 就 会 大 幅 下 降 : 


Score 
49824186.696 + 
49815447.849 + 
21115003.388 + 





Error Unit 
9366.780 ops/ 
2328.928 ops/ 

34005.817 ops/ 


3 
S 
号 


如 果 你 发 现 确实 需要 在 热 代码 中 分 配 更 大 的 数组 ， 那 么 可 以 让 虚拟 机 支持 优化 更 大 的 数 


组 。 将 限制 修改 为 65 个 元 素 ， 再 次 运行 该 基准 测试 就 会 显示 性 


$ java -XX:EliminateAllocationArraySizeLimit=65 


Benchmark 

EscapeTestArraySize. 
EscapeTestArraySize. 
EscapeTestArraySize. 


Mode 
arraySize63 thrpt 
arraySize64 thrpt 
arraySize65 thrpt 


Cnt 
200 
200 
200 


Score 
49814492.787 + 
49815595.566 + 
49818143.279 + 


能 恢复 了 : 


-jar target/benchmarks. jar 


Error Units 
2283.941 ops/s 
5833.359 ops/s 
2347.695 ops/s 


一 个 重要 的 限制 是 ，HotSpot 不 支持 部 分 逃逸 分 析 (partial escape analysis， 也 叫 流 敏感 


逃逸 分 析 )。 








如 有 果 发 现 某 个 对 象 在 任何 
配 该 对 象 的 优化 。 在 下 硬 
出 该 方法 ， 并 且 必 须 被 归 

















jRockit JVM 确实 支持 部 分 逃逸 分 析 ， 但 在 这 
有 被 带 到 HotSpot 中 。 


两 个 JVM 合并 





后 ， 该 技术 并 没 





一 个 分 文 上 逃逸 出 了 方法 的 作用 域 ， 那 将 不 会 应 用 避免 在 堆 上 分 
的 例子 中 ， 如 有 看 到 两 个 分 支 都 被 执行 ， 那 么 对 象 有 时 候 会 逃逸 





的 压力 。 


for (int i = 0; i < 100 000 000; i++) { 
Object mightEscape = new Object(i); 


if (condition) { 


类 为 ArgEscape。 


这 将 增加 对 象 的 分 配 率 ， 给 垃圾 收集 带 


result += inlineableMethod(mightEscape); 


} else{ 


result += tooBigToInline(mightEscape); 


} 
¥ 


如 果 在 代码 中 有 可 能 让 对 象 的 分 配 限 制 在 一 个 不 会 逃 





么 你 将 从 该 路 径 的 逃逸 分 析 中 受益 。 


for (int i = 0; i < 100 000 000; i++) { 


if (condition) { 


Object mightEscape = new Object(i); 














8 来 额外 





逸 的 分 支 内 ， 如 下 面 的 例子 所 示 ， 那 
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result += inlineableMethod(mightEscape); 
} elsef 
Object mightEscape = new Object(i); 
result += tooBigToInline(mightEscape); 
} 
} 


10.6 单 态 分 派 


HotSpot 的 C2 编译 器 所 做 的 许多 推测 性 优化 是 基于 实验 研究 的 。 一 个 例子 就 是 被 称 为 单 态 
分 派 (monomorphic dispatch) 的 技术 (“monomorphic” 这 个 词 源 于 希腊 语 ， 意 思 是 “单一 
形式 ”)。 

它 依赖 于 一 个 奇怪 但 很 强大 的 观测 事实 : 在 人 类 编写 的 代码 中 ,在 任何 一 个 单独 的 调用 点 
上 通常 只 观察 到 一 种 运行 时 类 型 是 接收 对 象 的 类 型 。 


这 通常 被 理解 为 反映 了 人 类 设计 面向 对 象 软件 的 方式 ， 而 不 是 Java 或 JVM 
特有 的 东西 。 








也 就 是 说 ， 当 我 们 在 对 象 上 调用 一 个 方法 时 ， 如 有 果 第 一 次 调用 时 检查 了 该 对 象 的 运行 时 类 
型 ， 那 么 它 很 可 能 在 以 后 的 每 次 调用 中 都 是 相同 的 类 型 。 

如 果 这 个 推测 的 假设 成 立 ， 那 么 可 以 优化 该 点 的 方法 调用 。 特 别 是 ， 可 以 去 掉 在 虚 表 
(vtable) 中 查找 方法 这 层 间 接 操 作 。 如 果 总 是 相同 的 类 型 ， 那 么 我 们 可 以 计算 一 次 调用 目 
标 ， 然 后 用 一 个 快速 类 型 测试 (守卫 ) 代替 invokevirtual 指令 ， 之 后 再 跳 转 到 编译 后 的 
方法 体 。 

换 句 话说 ， 通 过 klass 指针 和 vtable 进行 的 虚 方 法 查找 和 相关 间接 操作 只 需要 进行 一 次 ， 
然后 可 以 缓存 下 来 以 供 该 调用 点 将 来 的 调用 使 用 。 


对 于 一 个 invokevirtual 调用 点 ， 我 们 只 能 看 到 定义 了 要 执行 的 方法 的 基本 
类 型 以 及 它 的 任何 子 类 型 。 这 是 里 氏 禁 换 原则 的 另 一 种 表现 形式 。 























考虑 如 下 代码 : 


java.util.Date date = getDate(); 
System.out.println(date.toInstant()); 


如 果 getDate() 方法 总 是 返回 一 个 java.util.Date 实例 ， 那 么 我 们 就 可 以 假设 toInstant() 
的 调用 是 单 态 的 。 然 而 如 果 这 段 代 码 在 经 过 多 次 迭代 之 后 ，getDate() 突然 返回 一 个 java. 
sql.Date 实例 ， 那 么 单 态 假设 就 不 再 有 效 ， 因 为 现在 必须 调用 toInstant() 的 一 个 完全 不 
同 的 实现 。 

HotSpot 的 解决 方案 是 退出 优化 ， 并 将 调用 点 恢复 为 使 用 完全 虚拟 分 派 。 用 来 保护 单 态 调 





























用 的 守卫 非常 简单 ， 


保 不 会 执行 错误 的 代码 。 
应 用 程序 中 的 大 量 调用 都 是 单 态 的 。HotSpot 还 有 另 一 种 优化 ， 叫 作 双 态 分 派 


昌 型 I 


x = 


(bimorphic dispatch ) ， 


态 ”)。 




















就 是 看 klass 字 是 否 相 同 ， 它 会 在 每 个 调用 指令 之 前 进行 检查 ， 以 确 


这 种 优化 很 少 有 用 。 通 过 为 每 个 调用 点 缓存 两 个 不 同 的 klass 字 ， 能 
够 以 与 单 态 分 派 类 似 的 方式 处 理 两 种 不 同 的 类 型 


既 不 是 单 态 也 不 是 双 态 的 调用 点 被 称 为 复 态 
如 果 发 现 一 个 复 态 调用 点 观测 到 的 类 型 只 


型 。 


megamorphic， 来 自 希腊 语 ， 表 示 “ 多 种 形 
《有 少数 几 个 ， 那 你 可 以 使 用 一 个 小 技巧 来 


重新 获得 一 些 性 能 提升 。 甚 工作 原理 是 ， 使 用 instanceof 检查 从 原始 调用 点 “剥离 ” 掉 一 





些 类 型 ， 只 留 下 可 以 处 到 





接 下 来 看 看 下 面 这 个 例子 : 


package optjava.jmh; 


import org.openjdk.jmh.annotations.*; 
import java.util.concurrent.TimeUnit; 


interface Shape { 
int getSides(); 
} 


class Triangle implements Shape { 
public int getSides() { 
return 3; 
} 
} 


class Square implements Shape { 
public int getSides() { 
return 4; 
} 
} 


class Octagon implements Shape { 
public int getSides() { 
return 8; 
} 
} 


@State(Scope.Thread) 
@BenchmarkMode(Mode.Throughput) 
@OutputTimeUnit(TimeUnit.SECONDS) 
public class PeelMegamorphicCallsite { 





E 两 个 具体 类 型 的 双 态 调用 点 。 


private java.util.Random random = new java.util.Random(); 


private Shape triangle = new Triangle(); 
private Shape square = new Square(); 
private Shape octagon = new Octagon(); 


@Benchmark 
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public int runBimorphic() { 


Shape currentShape = null; 


switch (random.nextInt(2)) 


‘ 
case 0: 
currentShape = triangle; 
break; 
Case 1: 
currentShape = square; 
break ; 
} 
return currentShape.getSides(); 
} 
@Benchmark 


public int runMegamorphic() { 


Shape currentShape = null; 


switch (random.nextInt(3)) 


{ 
case 0: 
currentShape = triangle; 
break; 
Case 1: 
currentShape = square; 
break; 
Case 2: 
currentShape = octagon; 
break ; 
} 
return currentShape.getSides(); 
} 
@Benchmark 


public int runPeeLedMegamorphic() { 


Shape currentShape = null; 


switch (random.nextInt(3)) 


{ 

case 0: 
currentShape = triangle; 
break ; 

Case 1: 
currentShape = square; 
break; 

Case 2: 
currentShape = octagon; 
break; 

} 


// 从 原始 调用 点 剥离 出 一 个 观察 到 的 类 型 


if (currentShape instanceof Triangle) 





return ((Triangle) currentShape).getSides(); 





else { 
return currentShape.getSides(); // 现在 只 有 双 态 了 
} 
} 
} 
运行 这 个 基准 测试 ， 输 出 如 下 : 

Benchmark Mode Cnt Score Error Units 
PeelMega...Callsite.runBimorphic thrpt 200 75844310 + 43557 ops/s 
PeelMega...Callsite.runMegamorphic thrpt 200 54650385 + 91283 ops/s 
PeelMega...Callsite.runpeeledMegamorphic thrpt 200 62021478 + 150092 ops/s 


当 在 调用 点 观察 到 两 个 实现 时 ， 就 会 发 生 双 态 内 联 。 与 观察 到 3 个 实现 ， 并 且 方 法 分 派 仍 
然 为 虚拟 调用 的 复 态 调用 点 相 比 ， 它 可 以 每 秒 多 执行 约 38% 的 操作 。 需 要 注意 的 是 ， 这 个 
对 比 有 欠 公 平 ， 因 为 代码 的 行为 是 不 同 的 。 

当 一 种 观察 到 的 类 型 被 剥离 到 一 个 不 同 的 调用 点 时 ， 程 序 每 秒 执 行 的 操作 比 复 态 代码 多 
13% 左右 。 

方法 分 派 以 及 由 此 带 来 的 性 能 影响 是 一 个 深刻 的 话题 。Aleksey Shipilév 在 他 的 博客 文章 
“The Black Magic of (Java) Method Dispatch” 中 给 大 家 上 了 重要 一 课 。 


10.7 内 部 函数 


内 部 函数 (intrinsic) 指 的 是 一 个 方法 的 高 度 优化 的 原生 实现 ， 它 们 是 JVM 预先 知道 的 ， 而 非 
由 JIT 子 系统 动态 生成 。 它 们 用 于 性 能 关键 的 核心 方法 ， 其 功能 由 操作 系统 或 CPU 架构 的 
特定 特性 来 支持 。 这 使 得 它们 和 平台 相关 联 ， 并 且 有 些 内 部 函数 可 能 不 是 每 个 平台 都 支持 。 
JVM 启动 时 ， 会 在 运行 时 对 CPU 进行 探测 ， 并 建立 一 个 可 用 处 理 器 特性 的 列表 。 这 意味 
着 关于 使 用 哪 种 优化 的 决策 可 以 推迟 到 运行 时 再 做 ， 而 不 必 在 代码 编译 时 做 。 


内 部 函数 在 解释 器 以 及 Cl 和 C2 JIT 编译 器 中 都 可 以 实现 。 


























表 10-3 列 出 了 一 些 常 见 内 部 函数 的 示例 。 
表 10-3: 内 部 函数 示例 








广汉 描 述 

java.lang.System.arraycopy() 使 用 CPU 上 的 向 量 支持 实现 更 快速 的 复制 
java.lang.System.currentTimeMillis() 大 多 数 操作 系统 提供 了 快速 实现 
java.lang.Math.min() 在 某 些 CPU 上 执行 时 不 需要 分 支 跳 转 
其 他 java.lang.Math 方法 某 些 CPU 上 有 直接 的 指令 支持 

加 密 功能 (比如 AES) 硬件 加 速 可 以 带 来 明显 的 性 能 提升 
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ee OpenJDK 的 HotSpot 源 代码 中 查看 内 部 函数 模板 。 它 们 包含 在 .ad 文件 中 (这 
后 级 代表 的 是 “architecture dependent”， 即 架构 相关 )。 











Java 9 还 在 源 代 码 中 引入 了 @HotSpotIntrinsicCandidate 注解 来 表示 可 能 有 
可 用 的 内 部 函数 。 





对 于 x86 64 架构 ， 可 以 在 文件 hotspot/src/cpu/x86/vm/x86_64.ad 中 找到 它们 。 

例如 ， 要 计算 一 个 数 的 以 10 为 底 的 对 数 ， 可 以 使 用 java.lang.Math 中 的 这 个 方法 : 
public static double Log10(double a) 

在 x86_64 架构 上 ， 该 计算 会 用 两 条 FPU ( 浮 点 运算 单元 ) 指令 来 执行 以 下 操作 。 

1. 计算 常数 2 以 10 为 底 的 对 数 。 

2. 将 上 面 的 结果 乘 以 参数 以 2 为 底 的 对 数 。 

其 内 部 函数 代码 如 下 : 


instruct Log10D_reg(regD dst) %{ 
// The source and result Double operands in XMM registers 
// match(Set dst (Log10D dst)); 
// fldlg2 ; push log_10(2) on the FPU stack; full 80-bit number 
// fyl2x ; Compute Log_10(2) * log_2(x) 
format %{ "fldlg2\t\t\t#Log10\n\t" 
"fyl2x\t\t\t# Q=Log10*Log 2(x)\n\t" 

















%} 
ins_encode(Opcode(O0xD9), Opcode(QOxEC), 
Push_SrcXD(dst), 


Opcode(QxD9), Opcode(OxF1), 
Push_ResuyultXD(dst)); 
ins_pipe( pipe_slow ); 
%} 











如 果 一 个 核心 Java 方法 的 源 代码 看 上 去 还 没有 达到 最 优 ， 那 么 可 以 检查 一 下 
虚拟 机 是 否 已 经 有 一 个 特定 于 平台 的 内 部 函数 实现 。 




















当 考 虑 添加 一 个 新 的 内 部 函数 时 ， 你 需要 权衡 一 下 额外 的 复杂 性 和 内 部 函数 有 用 的 可 能 性 。 


I 如， 我 们 可 以 考虑 使 用 内 部 函数 来 执行 基本 的 算术 运算 ， 比 如 计算 前 个 数 的 和 。 传 统 
的 Java 代码 计算 这 个 值 需要 的 操作 为 O(n) 级 别 ， 但 是 有 一 个 简单 的 公式 ， 可 以 在 0(1) 时 
间 内 计算 它 。 

那么 我 们 是 否 应 该 实现 一 个 内 部 函数 在 常量 时 间 内 完成 求 和 呢 ? 

答案 取决 于 在 现实 中 观察 到 有 多 少 个 类 需要 计算 这 样 的 和 一 一 这 样 的 情况 并 不 是 很 多 。 因 
此 ， 这 样 的 内 部 函数 用 处 有 限 ， 几 乎 可 以 肯定 不 值得 在 JVM 中 增加 额外 的 复杂 性 。 


ey 




















这 就 强调 了 一 点 ， 即 
大 的 影响 。 


10.8 栈 上 替换 


只 有 那些 在 真实 代码 中 经 常 出 现 的 操作 ， 内 部 函数 才 会 对 性 能 产生 很 


有 时 你 会 遇 到 在 方法 内 包含 热 循环 (hot loop) 的 代码 ， 该 方法 调用 的 次 数 不 足 以 触发 纺 


译 ， 比 如 Java 程序 的 main() 方法 。 


HotSpot 仍然 可 以 使 用 一 种 叫 作 栈 上 蔡 换 (on-stack replacement，OSR) 的 技术 来 优化 这 样 
的 代码 。 这 个 技巧 会 计算 解释 器 中 向 后 跳 转 的 循环 分 支 数 ， 当 计数 达到 某 个 国 值 时 ， 这 个 


解释 的 循环 将 被 编译 ， 执 行将 切换 到 这 





编译 器 负责 确保 编译 版 本 可 以 使 用 任何 


锁 。 一 旦 编译 的 循环 退出 ， 那 所 有 的 状 
举 个 例子 ， 如 果 在 main() 方法 内 有 这 档 


package optjava; 




















public class OnStackReplacement { 
// 调用 一 次 的 方法 

public static void main(S 

java.util.Random 





Long sum = 0; 


// 第 一 个 长 期 运行 
for (int i = 0; i 
sum += Tr. 


} 


// 第 二 个 长 期 运行 
for (int i = 0; i 
sum += Tr. 


} 


System.out.printl 


3 
该 方法 的 字 市 码 是 这 样 的 : 


public static void main(java.lang 
descriptor: ([Ljava/lang/String; 
flags: ACC_PUBLIC, ACC_STATIC 
Code: 
stack=4, locals=5, args_size=1 
0: new #2 /7 运 
: dup 
: invokespecial #3 
: astore_1 
: lconst_0 
: lstore 2 


/I/M 


\D co ~ 上 


个 编译 的 版 本 。 


状态 更 改 ， 比 如 在 解释 循环 内 访问 过 的 局 部 
态 更 改 必须 在 继续 执行 的 位 置 可 见 。 


一 个 热 循环 ， 








tring[] args) { 
r = new java.util.Random(); 


的 循环 
< 1 000 000; 
nextInt(100); 


it++) { 


的 循环 
< 1 000_000; 
nextInt(100); 


it++) { 


n(sum) ; 


.String[]); 
)V 


Lass java/util/Random 


ethod java/util/Random."<init>":()V 
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10: iconst 0 
11: istore 
13: iload 4 
15: ldc #4 
17: if_icmpge 36 
20: lload 2 

21: aload 1 

22: bipush 100 
24: invokevirtual #5 
27* 2 

28: ladd 

29: lstore 2 

30: iinc 2 
33: goto 13 
36: getstatic #6 
39: lload 2 

40: invokevirtual #7 
43: return 


= 


// int 1000000 


// Method java/util/Random.nextInt:(I)I 


// Field java/lang/System.out:Ljava/io/PrintStream; 


// Method java/io/PrintStream.println:(J)V 


在 33 这 个 位 置 的 字 节 码 goto 会 将 控制 流 返 回 到 进行 循环 检查 的 位 置 13 处 。 


向 后 的 分 支 发 生 的 条 件 是 ， 当 循环 到 达 循 环 体 的 末尾 ， 检 查 其 退出 条 件 时 ， 
如 果 循 环 还 没有 结束 ， 那 分 支 会 回 到 循环 体 的 起 点 。 














HotSpot 可 以 使 用 Cl 和 C2 JIT 编译 器 执行 OSR 编译 。 
JITWatch 会 在 字 节 码 和 源 代码 窗口 中 突出 显示 哪个 循环 是 OSR 编译 的 ， 如 图 10-9 所 示 。 

















Oae TriView - Source, Bytecode, Assembly Viewer - JITWatch 
Class: | optjava.OnStackReplacement Member main(StringD) = 
Ysource [VBytecode 回 Assemby [Chain| |Joural| |LNT| lininedinto| [| Mouseover Bytecode size Native size Compile time 

Es0 Ems 


Source 


1 package optjavay 


3 public class OnstackReplacement { 


< 





called once 
tic void main(String[] args) { 
java.util.Random r = new java.util.Random(); 


long sum = 0 


// first long running loop 
for (int i = 0; i < 1 000 000; i++) 1 


} 

// second long running loop 

for (tnt i = 0; £1 < 1_000_000; i++) { 
sum += r.nextInt (100); 


} 


System.out .println (sum) ; 


Mounted class version: 52.0 (Java 8) public static void main(avaJang ,String[) compiled with C2 OSR 



























Assembly ‘VLabels |#3 (C2/OSR/Level4) ~ 


// class java/util/Randon Slloxoo000001116cd3e2: nop 
0x00000001116cd3e3: call 0x00000001115blla0 ; OopMap{ [0] 
#3 // Method java/util/Random."<in dnl np 


;1 - optjava, 



















{runtime 
ox00000001116cd3e8: call 0x0000000110a88bag 2*if_icmpge 
- optjava, 
{runtime 
65 
#4 // int 1000000 sp+Ox8] ,r13 
if_icnpge 36 10], rbx 
lload 2 0x18],r9 
aload 1 ‘rl0d 
bipush 0x0000000: : Mov DWORD PTR 1 ,red 
0x0000000 : call 0x000000011 # OopMap{ [16 
vifeq 





~ java.uti 
~ java.uti 







;» {runtime 
00000001116cd410: call 0x0000000110a88bag ;*ifeq 
7 ~ java.utl 










;~ java.uti 
~ optjava,| 
{runtime| 







#5 // Method java/util/Random.next 





: mov DWORD PTR [rsp+0x18],r8d 
: mov DNORD PTR [rspt0xle], ri0d 

f: call Ox00000001115bl1la0 ; OopMap{ [16 
1*ifge 





#6 // Field java/lang/System.out:L 


: invokevirtual #7 // Method java/io/Printstream.piv 





N1116rdA434: -ail nvnnnnnnnlinanahag 














10-9: 栈 上 替换 








10.9 ”再 谈 安全 点 


在 结束 JIT 编译 这 个 主题 之 前 ， 有 必要 列 出 JVM 中 要 求 虚拟 机 处 于 安全 点 的 所 有 条 件 。 除 
了 GC STW 事件 之 外 ， 下 面 的 活动 也 要 求 所 有 线程 都 处 于 安全 点 : 
。 取消 对 一 个 方法 的 优化 ; 
创建 堆 转 储 ， 
。 撤销 偏向 锁 ; 
。 重 定义 一 个 类 (比如 用 于 注入 )。 


在 编译 后 的 代码 中 ，JIT 编译 器 负责 生成 安全 点 检查 代码 (我 们 之 前 讲解 循环 展开 时 见 
过 ) ;在 HotSpot 中 ， 它 会 在 循环 里 向 后 的 分 支 中 ， 以 及 在 方法 的 返回 处 ， 生 成 安全 点 检 
查 代码 。 

这 意味 着 ， 有 了 时 线程 可 能 需要 一 定 的 时 间 才 会 走 到 安全 点 (比如 ， 线 程 正在 执行 一 个 包含 
大 量 算 术 运 算 代码 而 没有 任何 方法 调用 的 循环 )。 如 果 这 个 循环 被 展开 了 ， 那 可 能 要 相当 
长 一 段 时 间 才 会 遇 到 安全 点 。 


只 要 保持 程序 的 语义 不 变 ，JIT 编译 器 就 可 以 自由 地 生成 预测 性 和 乱 序 的 指 
令 。 当 虚拟 机 到 达 安 全 点 时 ， 编 译 代码 的 状态 将 与 程序 在 该 点 上 的 状态 相 匹 
配 。 调 试 器 依赖 于 这 种 行为 。 


























安全 点 多 了 ， 轮 询 检查 的 成 本 就 高 ， 安 全 点 少 了 ， 线 程 就 要 等 待 较 长 时 间 才 能 到 达 安 全 
点 ， 这 样 已 经 到 达 安 全 点 的 线程 就 要 等 待 其 他 线程 到 达 安 全 点 。 编 译 器 会 尽量 在 二 者 之 间 
取得 平衡 。 














可 以 通过 虚拟 机 开关 -XX:+PrintGCApplicationStoppedTime 来 查看 程序 
在 安全 点 所 花费 的 总 时 间 ， 包 括 等 待 所 有 线程 到 达 安 全 点 的 上 时间。 结合 
-XX:+PrintSafepointsStatistics 可 以 了 解 更 多 关于 安全 点 的 信息 。 














第 13 章 将 再 次 讨论 安全 点 ， 因 为 这 是 一 个 共性 问题 ， 对 很 多 JVM 子 系统 有 影响 。 


10.10 ”核心 库 方法 


本 章 最 后 来 快速 了 解 一 下 JDK 核心 库 方法 的 大 小 对 JIT 编译 的 影响 。 


10.10.1 内 联 方法 的 大 小 上 限 

因为 内 联 决策 是 根据 方法 的 字 节 码 大 小 做 出 的 ， 所 以 可 以 通过 对 类 文件 进行 静态 分 析 来 识 
别 对 于 内 联 来 说 太 大 的 方法 。 

开源 的 JarScan 工具 是 JITWatch 发 布 版 本 的 一 部 分 ， 启 动 脚本 就 在 JITWatch 根 目 录 下 。 它 
可 以 识别 一 个 类 文件 夹 或 一 个 JAR 文件 中 字 节 码 大 小 超过 给 定 国 值 的 所 有 方法 。 


使 用 下 面 的 命令 ， 对 jre/lib/rt.jar 中 的 Java 8 核心 库 运 行 该 工具 会 发 现 一 些 有 趣 的 结果 : 
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$ ./jarScan.sh --mode=maxMethodSize \ 
--limit=325 \ 
--packages=java.* \ 
/path/to/java/jre/tlib/rt.jar 


在 Linux x86 64 上 的 Java 8u152 中 ，java.* 包 树 中 有 490 个 方法 的 字 节 码 大 小 超过 325 字 
节 (该 平台 的 FreqInlinesize 限制 )， 其 中 一 些 方法 会 出 现在 热 代码 中 ， 你 应 该 不 会 感到 


奇怪 oo 





比如 java.lang.String 类 中 的 toUpperCase() 和 toLowerCase() 方法 ， 它 们 的 字 节 码 大 小 都 
达到 了 惊人 的 439 字 节 ， 超 出 了 内 联 的 正常 范围 。 


这 两 个 方法 之 所 以 这 么 大 ， 是 因为 在 某 些 区 域 (locale) 下 ， 转 换 一 个 字符 的 大 小 写 会 改变 

存储 它 所 需 的 char 值 的 个 数 。 因 此 ， 大 小 写 转换 方法 必须 能 够 检 剖 到 这 种 情况 ， 调 整 字符 

串 底 层 数 组 的 大 小 ， 并 复制 相关 内 容 ，toUpperCase() 方法 的 默认 实现 可 以 证 明 这 一 点 : 
public String toUpperCase(Locale locale) { 


if (locale == null) { 
throw new NullPointerException(); 











本 


} 


int firstLower; 
final int Len = value.length; 


/* Now check if there are any characters that need to be changed. */ 
scan: { 
for (firstLower = 0; firstLower < len; ) { 
int c = (int)value[firstLower]; 
int srcCount; 
if ((c >= Character .MIN_HIGH_SURROGATE) 
&& (c <= Character .MAX_HIGH_SURROGATE)) { 
c = codePointAt(fiLrstLower ); 
srcCount = Character .charCount(c); 
} elLse { 
srcCount = 1; 
} 
int upperCaseChar = Character.toUpperCaseEx(c); 
if ((upperCaseChar == Character .ERROR) 
|| (c != upperCaseChar)) { 
break scan; 
} 
firstLower += srcCount; 
} 
return this; 


} 


/* result may grow, so i+resuLtOffset is the write location in result */ 
int resultoffset = 0; 
char[] result = new char[Len]; /* may grow */ 


/* Just copy the first few UpperCase characters. */ 
System.arrayCopy(vaLue，0，FresuLt，0，firstLower); 





String Lang = locale.getLanguage(); 
boolean localeDependent = 
(Lang == "tr" || tang == "az" || tang == "Lt"); 
char[] upperCharArray; 
int upperChar; 
int srcChar; 
int srcCount; 
for (int i = firstLower; i < len; i += srcCount) { 
srcChar = (int)vaLue[i]; 
if ((char)srcChar >= Character .MIN_HIGH_SURROGATE && 
(char)srcChar <= Character .MAX_HIGH_SURROGATE) { 
srcChar = codePointAt(1D) ; 
srcCount = Character.charCount(srcChar); 
} elsef{ 
srcCount = 1; 
} 
if (localeDependent) { 
upperChar = ConditionalSpecialCasing. 
toUpperCaseEx(this, i, locale); 
} elsef 
upperChar = Character.toUpperCaseEx(srcChar); 
} 
if ((upperChar == Character .ERROR) 
|| (upperChar >= Character .MIN_SUPPLEMENTARY_CODE_POINT)) { 
if (upperChar == Character.ERROR) { 
if (LocaLeDependent) { 
upperCharArray = 
ConditionalSpecialCasing. 
toUpperCaseCharArray(this, i, locale); 
} elsef 
upperCharArray = Character.toUpperCaseCharArray(srcChar); 
} 
} else if (srcCount == 2) { 
resultoffset += Character.toChars(upperChar, 
result, i + resultoffset) 
- srcCount; 
continue; 
} elsef 
upperCharArray = Character.toChars(upperChar); 


} 


/* Grow result if needed */ 

int mapLen = upperCharArray.length; 

if (mapLen > srcCount) { 
char[] result2 = new char[resuLt.Length + mapLen - srcCount]; 
System.arraycopy(result, 0, result2, 0, i + resultoffset); 
result = result2; 

} 

for (int x = 0; x < mapLen; ++x) { 
result[i + resultoffset + x] = upperCharArray[x]; 

} 

resultoffset += (mapLen - srcCount); 

} else { 
result[i + resultoffset] = (char)upperChar; 


} 
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} 


return new String(result, 0, len + resultOoffset); 


} 
1. 使 用 领域 特定 方法 来 改进 性 能 
如 果 能 够 确定 在 自己 的 问题 域 中 ， 输 入 的 字符 集 不 需要 这 种 灵活 性 (或 许 输入 的 都 是 
ASCI 字符 )， 就 可 以 为 toUpperCase() 创建 一 个 领域 特定 的 版 本 ， 其 字 节 码 大 小 很 容易 控 
制 在 内 联 的 限制 之 内 。 
这 个 特定 于 ASCII 的 实现 ， 编 译 生成 的 字 节 码 只 有 69 字 市 : 


package optjava.jmh; 








import org.openjdk.jmh.annotations.*; 
import java.util.concurrent.TimeUnit; 


@State(Scope.Thread) 
@BenchmarkMode(Mode.Throughput) 
@OutputTimeUnit(TimeUnit.SECONDS) 
public class DomainSpecificUpperCase { 


private static final String SOURCE = 
"The quick brown fox jumps over the lazy dog"; 


public String toUpperCaseASCII(String source) { 
int Len = source.length(); 
char[] result = new char[Len]; 
for (int i = 0; i < len; i+t+) { 
char c = source.charAt(i); 
if (c >= 'a' && c <= 'z') { 


C -= 32; 
3 
result[i] = c; 
} 
return new String(result); 
} 
@Benchmark 


public String testStringToUpperCase() { 
return SOURCE.toUpperCase(); 
} 


@Benchmark 
public String testCustomToUpperCase() { 
return toUpperCaseASCII(SOURCE ) ; 























} 
} 
比较 自 定义 实现 与 核心 库 的 String.toUpperCase() 方法 的 性 能 ， 结 果 如 下 : 
Benchmark Mode Cnt Score Error Units 


17807 ops/s 
7199 ops/s 


DomainS.. .UpperCase.testCustomToUpperCase thrpt 200 20138368 
DomaiinS...UpperCase.testStringToUpperCase thrpt 200 8350400 


在 这 个 基准 测试 中 ， 领 域 特定 版 本 每 秒 执行 的 操作 数 大 约 是 核心 库 版 本 的 2.4 倍 。 


主 
业 





2. 小 方法 的 好 处 
小 方法 的 另 一 个 好 处 是 可 以 增加 内 联 组 合 的 数量 。 运 行 时 数据 的 变化 会 导致 代码 中 的 不 同 
路 径 变 得 “ 热 ” 起 来 。 


通过 让 方法 小 一 点 ， 我 们 可 以 构建 不 同 的 内 联 树 来 优化 更 多 的 热 路 径 。 对 于 较 大 的 方法 ， 
可 能 会 更 早 就 达到 内 联 的 大 小 限制 ， 从 而 使 一 些 路 径 得 不 到 优化 。 


10.10.2 编译 方法 的 大 小 上 限 


现在 演示 HotSpot 内 部 的 另 一 个 限制 。 如 果 方 法 的 字 闻 码 大 小 超过 8000 字 市 ， 则 该 方法 不 
会 被 编译 。 在 生产 级 JVM 中 ， 这 个 限制 是 不 能 改变 的 ， 但 如 果 运 行 的 是 调试 版 JVM， 就 
可 以 使 用 开关 -XX:HugeMethodLimit=<n> 来 设置 方法 可 编译 的 字 节 码 的 最 大 值 。 


使 用 如 下 JarScan 命令 ， 可 以 找 出 JDK 核心 库 中 大 小 超过 编译 姜 值 的 方法 : 
./jarScan.sh --mode=maxMethodSize --Limit=8000 /path/to/java/jre/Lib/rt.jar 

结果 如 表 10-4 所 示 。 

表 10-4: 核心 库 中 字 节 码 大 小 超过 编译 阀 值 的 方法 



































力 呈 大 大 小 ( 字 节 数 ) 
javax.swing.plaf.nimbus.NimbusDefaults.initializeDefaults() 23 103 
sun.util.resources.LocaleNames.getContents() 22 832 
sun.util.resources.TimeZoneNames .getContents() 17 818 
com.sun.org.apache.xalan.internal.xsltc.compiler .CUP$XPathPparser $actions. 17 441 


CUPSXPathParserSdo_action() 














javax.swing.pLaf.basic,BasicLookAndFeeL.initComponentDefautLts() 15 361 
com.sun.java.swing.plaf.windows.WindowsLookAndFeel.initComponentDefaults() 14 060 
javax.swing.plaf.metal.MetalLookAndFeel.initComponentDefaults() 12 087 
com.sun.java.swing.plaf.motif.MotifLookAndFeel.initComponentDefaults() 11 759 

com. sun.java.swing.plaf.gtk.GTKLookAndFeel.initComponentDefaults() 10 921 
sun.util.resources.CurrencyNames.getContents() 8578 
javax.management.remote.rmi. RMIConnectionImpl_Tie() 8152 
org.omg.stub.javax.management.remote.rmi._ RMIConnectionImpl_Tie() 8152 

这 些 巨型 方法 都 不 太 可 能 出 现在 热 代 码 中 。 它 们 大 多 是 UI 子 系统 的 初始 化 器 ， 或 者 提供 





用 于 货币 、 国 家 〈 地 区 ) 或 地 域名 称 列表 的 资源 。 


为 了 说 明 失 去 JIT 编译 的 影响 ， 我 们 来 看 看 对 两 个 近乎 相同 的 方法 执行 的 基准 测试 ， 一 个 
方法 的 字 市 码 大 小 正好 在 HugeMethodLimit 值 下 ， 男 一 个 正好 超过 该 国 值 : 


private java.util.Random r = new java.util.Random(); 





@Benchmark 
public long lessThan8000() { 
return r.nextInt() + 
r.nextInt() + 
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… // 总 的 字 节 码 大 小 正好 小 于 8090 字 市 
} 





@Benchmark 
public Long moreThan8000() { 
return r.nextInt() + 
r.nextInt() + 
.… // 总 的 字 节 码 大 小 正好 超过 8990 字 节 


} 
结果 如 下 : 
Benchmark Mode Cnt Score Error Units 


HugeMethod.lessThan8000 thrpt 100 89550.631 + 77.703 ops/s 
HugeMethod.moreThan8000 thrpt 100 44429.392 + 102.076 ops/s 





moreThan8000() 方法 没有 被 JIT 编译 ，lessThan8000() 方法 被 JIT 编译 了 ， 前 者 的 运行 速 
度 大 约 是 后 者 的 一 半 。 有 很 多 不 创建 这 种 巨型 方法 的 理由 (比如 可 读 性 、 可 维护 性 以 及 可 
调试 性 )， 现 在 又 多 了 一 个 理由 。 

一 种 现实 的 情况 是 在 自动 生成 的 代码 中 可 能 会 创建 巨型 方法 。 有 些 软件 会 自动 生成 代码 来 
表示 某 个 数据 存储 上 的 查询 。 然 后 查询 代码 会 被 编译 ， 以 提高 在 JVM 上 执行 时 的 性 能 。 
如 果 查 询 的 复杂 度 足 够 高 ， 那 么 它 可 能 达到 了 HotSpot 的 限制 ， 因 此 使 用 一 个 像 JarScan 
这 样 的 工具 来 检查 方法 的 大 小 可 能 会 有 所 帮助 。 

虽然 JIT 编译 器 的 很 多 设置 可 以 调整 ， 但 是 在 调整 前 后 都 应 该 对 自己 的 系统 
进行 基准 测试 ， 因 为 可 能 存在 意 想不到 的 副作用 ， 包 括 代码 缓存 空间 、JIT 
编译 器 队列 长 度 ， 甚 至 垃圾 收集 的 压力 。 















































10.11 小结 


本 章 介 绍 了 HotSpot 的 JIT 编译 子 系统 的 基础 知识 ， 并 探讨 了 它 执行 的 一 些 优化 。 我 们 了 
解 了 可 以 用 来 调 优 JIT 编译 器 的 参数 ， 并 研究 了 JIT 生成 的 一 些 汇编 代码 。 

在 可 操作 的 实用 技术 方面 ， 我 们 可 以 使 用 -XxX:+PrintCompilation 标志 和 上 一 章 介绍 的 技 
术 来 确认 对 各 个 方法 的 优化 。“ 先 写 好 代码 ， 只 在 需要 的 时 候 才 进行 优化 ”， 这 个 一 般 性 原 
则 在 这 里 肯定 适用 。 了 解 了 内 联 和 其 他 编译 国 值 的 限制 ， 开 发 人 员 就 可 以 重 构 其 代码 ， 使 
其 处 于 这 些 限制 之 内 (或 者 在 极 少 数 情况 下 ， 修 改 准 值 )。 了 解 了 单 态 分 派 和 类 型 锐 化 的 
存在 ,意味 着 我 们 可 以 根据 一 个 经 典 的 原则 来 编写 应 用 程序 ,设计 接口 ， 哪 怕 只 有 一 个 实 
现 。 这 可 以 获得 两 种 方法 的 好 处 一 一 类 仍然 可 以 提供 一 个 虚 的 实现 ， 或 者 用 于 模拟 测试 ， 
单一 实现 保留 了 单 态 分 派 。 
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Java 语 言 性 能 技术 





到 目前 为 止 ， 我 们 已 经 探讨 了 JVM 读 取 开 发 人 员 写 好 的 代码 、 将 其 转换 为 字 市 码 以 及 进 
一 步 将 其 优化 为 高 性 能 编译 代码 的 机 制 。 

如 果 每 个 Java 应 用 程序 都 是 由 高 质量 、 和 干净 的 代码 组 成 ， 并 且 在 架构 时 就 考虑 了 性 能 ， 那 
该 多 好 啊 。 然 而 现实 并 非 如 此 。 尽 管 这 样 ， 很 多 情况 下 JVM 可 以 使 用 不 那么 理想 的 代码 
并 使 其 工作 得 很 好 ， 这 也 证 明了 JVM 这 个 环境 的 强大 和 健壮 。 
即便 是 代码 库 质 量 极其 低下 且 难 以 维护 的 应 用 程序 ， 通 常 也 可 以 通过 某 种 方式 使 其 在 产品 
中 表现 不 错 。 当 然 ， 没 有 人 想 维护 或 修改 这 样 的 应 用 程序 。 那 么 当 需 要 优化 这 类 代码 的 性 
能 时 ， 开 发 人 员 还 能 做 什么 呢 ? 

除了 应 用 程序 外 部 因素 ， 比 如 网 络 链接 、IO 和 数据 库 ， 性 能 的 最 大 潜在 瓶颈 之 一 是 代码 的 
设计 。 设 计 是 非常 困难 的 一 部 分 ， 没 有 完美 的 设计 。 

优化 Java 非常 复杂 ， 我 们 在 第 13 章 将 介绍 如 何 使 用 性 能 剖析 工具 来 辅助 寻 
找 性 能 不 理想 的 代码 。 

























































































尽管 如 此 ， 关 注 性 能 的 开发 人 员 还 应 该 记 住 代码 的 一 些 基本 方面 ， 比 如 知道 数据 如 何 存储 
在 应 用 程序 中 就 相当 重要 。 而 且 ， 随 着 业务 需求 的 变化 ， 数 据 存储 方式 可 能 也 需要 演进 。 
为 了 解数 据 存储 有 哪些 可 用 选项 ， 熟 悉 Java Collections API 中 提供 的 数据 结构 及 其 实现 细 
节 对 开发 人 员 非 常 重要 。 

选择 某 个 数据 结构 ， 却 不 知道 它 将 如 何 被 更 新 和 查询 是 非常 危险 的 。 虽 然 有 些 开 发 人 员 会 直 
接 选 择 他 们 喜欢 的 类 ， 使 用 时 也 不 假 思索 ， 但 是 认真 的 开发 人 员 会 考虑 数据 将 如 何 查 询 ， 以 
及 哪些 算法 查询 最 高 效 。java.lang.Collections 以 类 方法 的 形式 提供 了 很 多 算法 和 操作 。 
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在 为 产品 代码 编写 某 个 通用 算法 〈 比 如 手动 实现 的 冒 泡 排序 ) 的 实现 之 前 ， 
先 检 查 java.Lang.CoLLections 中 是 不 是 有 可 以 利用 的 。 


























了 解 系 统 中 的 领域 对 象 及 其 生命 周期 可 以 对 性 能 产生 重大 影响 。 可 以 考虑 一 些 启 发 式 方 
法 ， 应 用 程序 内 领域 对 象 的 使 用 方式 会 影响 垃圾 收集 和 增加 开销 ，JVM 必须 在 运行 时 管理 
这 些 开销 (通常 是 不 必要 的 )。 

本 章 将 从 关注 性 能 的 开发 人 员 应 该 了 解 的 集合 类 细节 入 手 ， 探 讨 每 一 个 问题 。 


11.1 优化 集合 

大 部 分 编程 语言 库 会 提供 至 少 两 种 通用 类 型 的 容器 。 

。 顺序 容器 : 将 对 象 保存 在 某 个 特定 位 置 ， 用 索引 来 表示 。 

。 关联 容器 : 使 用 对 象 本 身 来 确定 它 在 集合 中 应 该 保存 的 位 置 。 

为 使 特定 容器 的 方法 正常 工作 ， 被 存储 对 象 必 须 提供 比较 (comparability) 和 相等 
(equivalence) 的 概念 。 在 核心 的 Java Collections API 中 ,通常 的 说 法 是 ， 对 象 必 须 依 照 
Josh Bloch 在 他 的 Bfjective Java 一 书 中 推广 的 约定 来 实现 hashCode() 和 equals() 方 法。 


正如 在 6.2 节 中 所 看 到 的 ， 引 用 类 型 的 字段 作为 引用 存储 在 堆 中 。 因 此 ， 尽 管 我 们 在 党 统 
地 讨论 按 顺 序 存储 的 对 象 ， 但 是 容器 中 存储 的 并 不 是 对 象 本 身 ， 而 是 一 个 指向 对 象 的 引 
用 。 这 意味 着 你 通常 不 会 获得 与 使 用 C/C++ 风格 的 数组 和 向 量 相同 的 性 能 。 
这 个 示例 说 明了 Java 的 托管 内 存 子 系统 如 何 要 求 你 放弃 对 内 存 的 底层 控制 ， 以 换取 自动 垃 
圾 收集 。 放 弃 底层 控制 的 常见 示例 是 手动 控制 分 配 和 回收 ， 但 是 这 里 我 们 可 以 看 到 对 底层 
内 存 布局 的 控制 也 被 放弃 了 。 
换 一 种 思考 方式 就 是 ，Java 至 今 仍然 无 法 做 到 与 C 的 结构 体 数组 等 价 的 内 存 
布局 。 



























































Gil Tene (Azul Systems 公司 的 CTO) 经 常 把 这 个 限制 称 为 导致 Java 和 C 语言 之 间 性 能 
距 的 最 后 一 个 主要 障碍 。ObjectLayout 网 站 上 有 更 多 关于 内 存 布局 如 何 标准 化 的 信息 ， 所 
提供 的 代码 可 以 在 Java 7 及 以 上 版 本 中 进行 编译 和 工作 。 其 目的 是 使 经 过 优化 的 JVM 能 
够 利用 这 些 类 型 ， 用 所 描述 的 语义 正确 布局 这 些 结构 ， 而 不 破坏 与 其 他 JVM 的 兼容 性 。 


我 们 在 第 15 章 将 讨论 Java 环境 的 未 来 ， 并 描述 当前 将 值 类 型 (value type) 引入 平台 所 做 
的 努力 。 这 将 比 对 象 布局 代码 所 能 做 到 的 更 进一步 。 

Collections API 定义 了 一 组 接口 ， 指 定 了 该 类 型 的 容器 必须 遵循 的 操作 。 图 11-1 演示 的 是 
其 基本 的 类 层次 结构 。 
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Collection 





SortedMap 





11-1: Java Collections API 的 类 层次 结构 





除了 这 些 接口 之 外 ，JDK 内 部 还 有 很 多 种 集合 的 实现 。 根 据 设 计 选 择 合适 的 实现 是 问题 的 
第 一 部 分 ， 但 我 们 也 要 认识 到 我 们 的 选择 可 能 会 影响 应 用 程序 的 整体 性 能 。 

11.2 针对 列表 的 优化 考虑 

在 核心 Java 中 ， 基 本 上 有 两 种 表示 列表 (list) 的 方法 ， 即 ArrayList 和 LinkedList。 


虽然 Java 也 有 stack 和 Vector 类 ,但 前 者 通常 会 引入 并 无 必要 的 额外 语义 ， 
而 后 者 在 很 大 程度 上 已 经 被 弃 用 了 。 你 的 代码 不 应 该 使 用 vector， 如 果 有 任 
何 地 方 使 用 了 ， 你 应 该 进行 重 构 以 将 其 删除 。 











下 面 将 从 基于 数组 实现 的 列表 开始 ， 依 次 进行 讨论 。 


11.2.1 ArrayList 


ArrayList 是 通过 一 个 大 小 固定 的 数组 提供 支持 的 。ArrayList 中 可 以 不 断 加 入 条 目 ， 直 到 
数量 达到 底层 数组 的 最 大 值 。 当 底层 数组 被 填 满 时 ， 该 类 将 分 配 一 个 新 的 、 更 大 的 数组 ， 
并 将 原来 的 值 复制 进去 。 因 此 ， 有 关注 性 能 的 程序 员 必 须 权衡 调整 大 小 操作 的 成 本 和 不 需 
要 提前 知道 列表 会 变 成 多 大 的 灵活 性 。 一 开始 ，ArrayList 底层 是 一 个 空 数组 。 在 第 一 次 
向 ArrayList 中 增加 条 目 时 ， 底 层 会 分 配 一 个 容量 为 10 的 数组 。 通 过 向 构造 器 传递 我 们 首 
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选 的 初始 容量 值 ， 可 以 避免 这 次 调整 大 小 的 行为 。 我 们 也 可 以 使 用 ensureCapacity() 来 增 
加 ArrayList 的 容量 ， 以 避免 重新 调整 大 小 。 


尽 可 能 设置 一 个 容量 是 明智 之 举 ， 因 为 重新 调整 大 小 会 带 来 性 能 损失 。 








下 面 是 JMH 中 的 一 个 微 基准 测试 (在 5.2 节 介 绍 过 ) ， 演 示 了 这 一 效果 : 


@Benchmark 
public List<String> properlySizedArrayList() { 
List<String> list = new ArrayList<>(1 _ 000 000); 
for(int i=0; i < 1 000 000; i++) { 
list.add(item); 





} 

return list; 
} 
@Benchmark 


public List<String> resizingArrayList() { 
List<String> list = new ArrayList<>(); 
for(int i=0; i < 1 000 000; i++) { 
list.add(item); 





























} 
return list; 
} 
本 市 中 的 微 基准 测试 则 在 说 明 问 题 ， 并 不 是 得 出 权威 性 的 结论 。 如 果 你 的 应 
用 程序 的 性 能 对 此 类 操作 非常 敏感 ， 那 你 应 该 考虑 标准 集合 的 替代 方案 。 
输出 如 下 : 
Benchmark Mode Cnt Score Error Units 
ResizingList.properlySizedArrayList thrpt 10 287.388 + 7.135 ops/s 
ResizingList.resizingArrayList thrpt 10 189.510 + 4.530 ops/s 


当 测 试 插入 时 ，properlysizedArrayList 测试 每 秒 大 约 能 够 多 执行 100 次 操作 ， 因 为 即使 重 
新 分 配 的 成 本 被 挫 销 了 ， 仍 然 也 会 有 一 个 总 成 本 。 尽 可 能 选择 一 个 大 小 合适 的 ArrayList。 





11.2.2 LinkedList 


LinkedList 的 增长 机 制 更 为 动态 化 ， 它 被 实现 为 一 个 双向 链表 ， 这 意味 着 除了 其 他 方面 之 
外 ， 向 列表 中 添加 元 素 的 时 间 总 是 0(1)。 每 次 在 列表 中 加 入 新 的 条 目 就 会 创建 一 个 新 的 市 
点 ， 并 让 前 一 个 条 目 指向 它 ， 示 例如 图 11-2 所 示 。 
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11-2: 一 个 LinkedList 


11.2.3 ArrayList 与 LinkedList 的 对 比 


真正 决定 是 使 用 ArrayList 还 是 LinkedList (或 其 他 非 标 准 的 List 实现 ) 取决 于 访问 和 修 
改 数据 的 模式 。 如 果 是 在 列表 末尾 插入 数据 ， 对 ArrayList 和 LinkedList 而 言 ， 就 都 是 常 
量 时 间 操 作 (在 ArrayList 的 情况 下 ， 是 在 调整 大 小 操作 摊 销 之 后 )。 


然而 ， 在 ArrayList 中 ， 要 在 某 个 索引 处 加 入 数据 ， 则 需要 将 从 该 处 开始 的 其 他 所 有 元 素 
向 右 移 动 一 个 位 置 。 对 LinkedList 而 言 ， 则 需要 遍历 节点 引用 ， 在 列表 中 找到 需要 插入 的 
位 置 ， 但 插入 本 身 只 需要 创建 一 个 新 的 市 点 ， 并 设置 两 个 引用 ， 一 个 指向 原来 位 于 索引 处 
的 布点 的 前 面 一 个 节点 ， 一 个 指向 原来 位 于 索引 处 的 市 点。 从 下 面 的 基准 测试 可 以 看 出 在 
两 种 类 型 的 列表 执行 插入 的 性 能 差异 : 

Benchmark Mode Cnt Score Error Units 


InsertBegin.beginArrayList thrpt 10 3.402 + 0.239 ops/ms 
InsertBegin.beginLinkedList thrpt 10 559.570 + 68.629 ops/ms 


列表 删除 也 有 类 似 的 表现 。 从 LinkedList 中 删除 元 素 成 本 较 低 ， 最 多 需要 修改 两 个 引用 。 
在 ArrayList 中 ， 处 于 要 删除 位 置 右 侧 的 所 有 元 素 都 需要 向 左 移动 一 个 位 置 。 


如 果 主 要 是 随机 访问 列表 ， 那 么 ArrayList 是 最 好 的 选择 ， 因 为 任何 元 素 都 可 以 在 0(1) 时 
间 内 访问 ， 而 LinkedList 则 需要 从 开头 遍历 到 索引 位 置 。 通 过 一 个 特定 的 索引 来 访问 不 同 
类 型 列表 的 成 本 可 以 通过 以 下 简单 的 基准 测试 获得 : 

Benchmark Mode Cnt Score Error Units 


AccessingList.accessArrayList thrpt 10 269568.627 + 0.863 ops/ms 
AccessingList.accessLinkedList thrpt 10 12972.927 + 0.030 ops/ms 


一 般 来 说 ， 除 非 需 要 LinkedList 的 特定 行为 ， 否 则 建议 首选 ArrayList， 尤 其 是 在 使 用 需 
要 随机 访问 的 算法 时 。 尽 可 能 提前 正确 设置 ArrayList 的 大 小 ， 以 避免 重新 调整 所 带 来 的 
损失 。 现 代 Java 中 的 集合 类 认为 开发 人 员 应 该 承担 所 有 访问 的 同步 成 本 ， 并 且 在 必要 时 使 
用 并 发 集合 或 者 手动 管理 同步 。 在 CoLLections 辅助 类 中 有 一 个 叫 synchronizedList() 的 
方法 ， 它 实际 上 是 一 个 装饰 器 ， 将 List 方法 的 所 有 调用 都 封装 到 了 一 个 synchronized 块 
中 。 第 12 章 将 更 详细 地 讨论 如 何 将 java,utitL.concurrent 用 于 我 们 的 结构 ， 以 便 在 编写 
多 线程 应 用 程序 时 能 够 更 有 效 地 使 用 这 些 结 构 。 
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11.3 ”针对 映射 的 优化 考虑 


映射 (map) 通常 描述 键 (key) 和 关联 的 值 (value) 之 间 的 关系 ， 所 以 就 有 了 关联 数组 
(associative array) 这 个 术语 。 在 Java 中 ， 映 射 遵循 java.util.Map<K,V> 接口 。 当 然 ， 键 
和 值 都 必须 是 引用 类 型 。 


11.3.1 HashMap 


Java 的 HashMap 在 很 多 方面 可 以 看 作 计 算 机 科学 中 经 典 的 入 门 级 散 列表 (hash table) ， 它 也 
加 入 了 一 些 额 外 的 处 理 使 之 适合 现代 环境 。 


简化 版 的 HashMap (去 掉 了 泛 型 和 一 些 关 键 特 性 ， 我 们 后 面 还 会 再 看 到 ) 有 一 些 关 键 方法 ， 


如 下 所 示 : 





















































public Object get(Object key) { 
// 为 简化 起 见 ， 不 支持 空 的 键 
if (key == nuLL) return null; 


int hash 


= key.hashCode(); 


int i = indexFor(hash, table. length); 
for (Entry e = table[i]; e != null; e = e.next) { 
Object k; 
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) 


} 


return e.value; 


return null; 


} 


private int indexFor(int h, int length) { 


return h 


} 


& (length-1); 


// 这 是 一 个 链表 节点 


static class 


Node implements Map.Entry { 


final int hash; 
final Object key; 
Object value; 
Node next; 


Node(int h, Object k, Object v, Entry n) { 


hash 


= h; 


key = k; 
value = v; 


next 


} 


三: 而， 





在 这 种 情况 下 ，HashMap.Node 类 被 限制 为 只 能 在 java.util 包 中 访问 ， 也 就 是 说 ， 这 是 静 
态 类 的 一 个 经 典 用 例 。 


HashMap 的 布局 如 








图 11-3 所 示 。 
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11-3: 一 个 简单 的 HashMap 


最 初 桶 的 条 目 将 储存 在 一 个 列表 中 。 在 查找 值 时 ， 先 计算 出 键 的 散 列 ， 然 后 用 equals() 方 
法 在 列表 中 找到 相应 的 键 。 因 为 用 到 了 这 两 种 手段 ， 所 以 HashMap 中 不 允许 存在 重复 的 键 。 
插入 同样 的 键 会 替换 掉 当 前 储存 在 HashMap 中 的 键 。 


现代 Java 版 本 中 的 一 个 改进 是 indexFor() 已 经 被 使 用 键 对 象 的 hashCode() 的 代码 所 替代 ， 
并 应 用 了 一 个 掩 码 将 散 列 中 的 高 位 向 后 面 移 位 了 。 


这 是 一 种 设计 权衡 ， 以 确保 HashMap 在 计算 键 散 列 到 哪个 桶 时 考虑 到 散 列 的 高 位 。 如 果 不 
这 样 做 ， 那 么 在 计算 索引 时 可 能 就 不 会 用 到 高 位 。 这 是 有 问题 的 ， 原 因 有 很 多 ， 最 重要 的 
是 它 违 反 了 香农 的 严格 雪 骨 准则 (strict avalanche criterion) ， 即 输入 数据 任意 微小 的 变化 都 
可 能 对 散 列 函数 的 输出 产生 巨大 改变 。 


有 两 个 重要 的 变量 影响 着 HashMap 的 性 能 ，initialCapacity 和 LoadFactor， 这 两 个 变量 都 
可 以 通过 传递 给 构造 器 的 参数 来 设置 。HashMap 的 容量 (capacity) 代表 当前 创建 的 桶 的 数 
量 ， 其 默认 值 为 16。loadFactor 表示 散 列表 要 达到 多 满 时 ， 容 量 才 会 自动 增加 。 增 加 容量 
和 重新 计算 散 列 的 过 程 叫 作 再 散 列 (rehash) ， 它 会 使 可 用 的 桶 数 增加 一 倍 ， 并 重新 分 布 存 
储 的 数据 。 







































































设置 HashMap 的 initiaLCapacity 遵循 与 ArrayList 相同 的 规则 : 如 果 事 先知 
道 大 概要 存储 多 少 信息 ， 你 就 应 该 设置 它 。 





























一 个 准确 的 initialCcapacity 会 避免 在 表 增 长 时 自动 再 散 列 。 你 也 可 以 调整 LoadFactor， 
但 0.75 这 个 默认 值 在 存储 空间 和 访问 时 间 之 间 提 供 了 一 个 很 好 的 平衡 。LoadFactor 大 于 
0.75 会 降低 再 散 列 的 需求 ， 但 随 着 桶 越 来 越 满 ， 访 问 速度 会 变 慢 。 将 initialCapacity 设 
置 为 元 素 的 最 大 数量 除 以 loadFactor ， 将 防止 再 散 列 操作 的 发 生 。 
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HashMap 对 get() 和 put() 操作 提供 了 常量 时 间 支 持 ， 但 是 迭代 的 成 本 可 能 很 高 。 正 如 在 
JavaDoc 中 提 到 的 ， 将 initialCapacity 和 LoadFactor 设置 得 过 高 会 严重 影响 迭代 性 能 。 

另 一 个 影响 性 能 的 因素 是 一 个 称 为 树 化 (treeifying) 的 过 程 。 这 个 相对 较 新 的 创新 是 
HashMap 的 一 个 内 部 实现 细节 ， 但 可 能 对 性 能 工程 师 有 些 作用 。 

考虑 桶 被 高 度 填充 的 情况 。 如 果 桶 的 元 素 被 实现 为 LitnkedList， 随 着 列表 的 增长 ， 通 过 遍 
历 寻 找 一 个 元 素 的 平均 成 本 就 会 越 来 越 高 。 

为 了 抵消 这 种 线性 效应 ，HashMap 的 现代 实现 采用 了 一 个 新 的 机 制 ， 即 一 旦 一 个 桶 中 的 元 
素数 量 达 到 了 TREEIFY_THRESHOLD， 它 就 会 被 转换 为 一 组 TreeNode (表现 与 TreeMap 类 似 ) 。 
为 什么 不 从 一 开始 就 这 样 做 呢 ? 这 是 因为 TreeNode 的 大 小 大 约 是 列表 节点 的 两 倍 ， 所 
以 要 付出 空间 成 本 。 一 个 分 布 均匀 的 散 列 函 数 很 少 会 导致 桶 被 转换 为 TreeNode。 如 果 应 
用 程序 中 出 现 了 这 种 情况 ， 那 么 是 时 候 孝 虑 重新 访问 散 列 函数 以 及 initialCapacity 和 
LoadFactor 的 设置 了 。 

和 性 能 问题 的 所 有 其 他 方面 一 样 ， 实 践 中 采用 的 技术 都 是 由 权衡 和 实用 主义 驱动 的 ， 所 以 
你 应 该 采用 类 似 这 种 脚踏实地 的 、 数 据 驱动 的 方法 来 分 析 自 己 的 代码 。 

LinkedHashMap 

LinkedHashMap 是 HashMap 的 一 个 子 类 ， 它 通过 所 有 元 素 之 间 的 双向 链表 来 维护 元 素 的 插入 
顺序 。 

LinkedHashwap 默认 情况 下 维护 插入 顺序 ， 但 也 可 以 将 其 模式 切换 为 访问 顺序 。 它 经 常用 
于 用 户 对 顺序 有 要 求 的 地 方 ， 而 且 其 成 本 也 没有 TreeMap 那么 高 。 

因为 大 多 数 情 况 下 插入 顺序 和 访问 顺序 对 Map 的 用 户 不 重要 ， 所 以 需要 正确 选择 
LinkedHashMap 集合 的 场合 应 该 相对 较 少 。 
























































11.3.2 TreeMap 

TreeMap 本 质 上 是 一 种 红 黑 树 实现 。 这 种 类 型 的 树 基本 上 是 一 种 带 有 额外 的 元 数据 (节点 
着 色 ) 的 二 又 树 结构 ， 其 中 的 元 数据 用 于 防止 树 变 得 过 于 不 平衡 。 

因为 树 的 节点 (TreeNode) 需要 排序 ， 所 以 键 必 须 提供 一 个 与 equals() 方法 
一 致 的 比较 器 。 








当 需 要 一 系列 键 时 ，TreeMap 就 会 变 得 非常 有 用 ， 因 为 它 支持 快速 访问 子 映 射 (submap)。 
TreeMap 也 可 以 用 来 对 数据 进行 分 区 ， 比 如 从 起 点 到 某 个 点 ,或 者 从 某 个 点 到 最 后 。 


TreeMap 的 get()、put()、containsKey() 和 remove() 操作 的 性 能 为 log(n)。 


在 实践 中 ， 大 多 数 情 况 下 HashMap 能 满足 我 们 对 Map 的 要 求 ， 但 考虑 一 个 例子 : 使 用 流 或 
Lambda 处 理 Map 中 的 部 分 内 容 。 在 这 些 情况 下 ， 使 用 一 个 能 了 解数 据 分 区 的 实现 (比如 
TreeMap) 可 能 更 有 意义 。 
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11.3.3 缺少 MuLtiMap 


Java 没有 提供 MultiMap (一 个 键 可 以 关联 多 个 值 ) 的 实现 。 文 档 中 给 出 的 理由 是 ， 这 不 
会 经 常用 到 ， 而 且 大 多 数 情 况 下 可 以 以 Map<K，List<V>> 的 形式 实现 。 但 有 些 开 源 实 现 为 
Java 提供 了 MultiMap。 


11.4 ”针对 集 的 优化 考虑 


Java 包含 3 种 类 型 的 集 (set) ， 它 们 与 Map 都 有 非常 相似 的 性 能 考虑 。 


事实 上 ， 如 果 先 仔细 看 一 下 Hashset 的 一 个 版 本 (为 简洁 起 见 ， 做 了 删 减 )， 就 会 发 现 它 明 
显 是 用 HashMap (在 LinkedHashset 的 情况 下 ， 则 是 用 LinkedHashMap) 来 实现 的 : 


public class HashSet<E> extends AbstractSet<E> implements Set<E>, Serializable { 
private transient HashMap<E,O0bject> map; 








// 用 来 与 底层 Map 中 的 对 象 关联 的 一 个 哑 值 
private static final Object PRESENT = new Object(); 











public Hashset() { 
map = new HashMap<>(); 


} 


HashSet(int initialCapacity, float loadFactor, boolean dummy) { 
map = new LinkedHashMap<>(initialCapacity, loadFactor); 


} 


public boolean add(E e) { 
return map.put(e, PRESENT)==null; 


} 
} 


set 的 行为 不 允许 出 现 重 复 的 值 ， 这 与 Map 中 的 键 完全 一 样 。 在 add() 方法 中 ，Hashset 只 
需要 将 所 要 插入 的 元 素 E 当 作 HashMap 中 的 一 个 键 ， 并 使 用 一 个 哑 对 和 象 PRESENT 作为 与 
其 关联 的 值 。 这 样 做 的 开销 很 小 ， 因 为 PRESENT 对 象 只 需 创建 一 次 ， 后 面 可 以 直接 引用 。 

Hashset 的 第 二 个 受 保护 的 构造 器 支持 创建 一 个 LinkedHashMap， 这 个 可 以 用 来 模拟 同样 的 
行为 ， 同 时 记录 插入 顺序 。Hashset 的 插入 、 删 除 和 包含 操作 的 时 间 都 为 0(1)， 它 不 维护 元 
素 的 顺序 (除非 用 作 LinkedHashset)， 并 且 赤 代 成 本 取决 于 initialCapacity 和 LoadFactor。 
TreeSet 以 类 似 的 方式 实现 ， 利 用 了 之 前 讨论 的 已 有 的 TreeMap。 使 用 它 可 以 保留 由 
Comparator 定义 的 键 的 自然 顺序 ， 使 其 更 适合 基于 范围 的 操作 和 返 代 操作 。TreeSet 可 以 
保证 插入 、 en le Sh a rant log(n)， 而 且 它 会 维护 元 素 的 顺序 。 它 对 于 迭代 
和 遍历 子 集 都 非常 高 效 ， 任 何 基于 范围 的 操作 或 者 考虑 顺序 的 操作 最 好 使 用 它 来 处 理 。 


11.5 ”领域 对 象 


领域 对 象 (domain object) 是 表示 对 应 用 程序 非常 重要 的 业务 概念 的 代码 。 它 有 很 多 例子 ， 
比如 电 商 网 站 的 Order (订单 )、OrderItem (订单 项 ) 和 Deliveryschedule ( 交 货 时 间 表 )。 
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这 些 类 型 之 间 通 常会 有 一 定 的 关系 (一 个 Order 有 多 个 与 之 关联 的 OrderIten 实例 )， 比 如 : 


public class Order { 
private final long id; 
private final List<OrderItem> items = new ArrayList<>(); 
private DeliverySchedule schedule; 


public Order(long id) { 
this.id = id; 


} 


public DeliverySchedule getSchedule() { 
return schedule; 


3 


public void setSchedule(DeliverySchedule schedule) { 
this.schedule = schedule; 


} 


public List<OrderItem> getItems() { 
return items; 


} 


public Long getId() { 
return id; 
} 
} 


public class OrderItem { 
private final long id; 
private final String description; 
private final double price; 


public 0rderItem(Long id, String description, double price) { 
this.id = id; 
this.description = description; 
this.price = price; 


} 


@Override 
public String toString() { 
return "OrderIltem{" + "id=" + id + ", description=" + 
description + ", price=" + price + '}'; 


} 


public final class DeliverySchedule { 
private final LocalDate deliveryDate; 
private final String address; 
private final double deliveryCost; 


private DeliverySchedule(LocalDate deliveryDate, String address, 
double deliveryCost) { 
this.deliveryDate = deliveryDate; 
this.address = address; 





214 | 第 11 章 


this.deliveryCost = deliveryCost; 


} 


public static DeliverySchedule of(LocalDate deliveryDate, String address, 
double deliveryCost) { 
return new DeliverySchedule(deliveryDate, address, deliveryCost); 


} 


@Override 
public String toString() { 
return "DeliverySchedule{" + "deliveryDate=" + deliveryDate + 
", address=" + address + ", deliveryCost=" + deliveryCost + '}'; 


} 


领域 类 型 之 间 存 在 所 有 权 关 系 ， 如 图 11-4 所 示 。 然 而 ， 领 域 对 象 图 中 时节 点 上 的 大 部 分 数 
据 项 最 终 是 简单 的 数据 类 型 ， 如 字符 串 、 基 本 类 型 和 LocalDateTime 对 象 。 



































11-4: 领域 对 象 图 








我 们 在 6.1 市 介绍 了 jmap -histo 命令 。 该 命令 可 以 帮助 我 们 快速 了 解 Java 堆 的 状态 ， 同 样 
的 功能 也 可 以 通过 VisualVM 这 样 的 图 形 用 户 界 面 工具 来 获得 。 这 些 非 常 简 单 的 工具 都 值得 
学 习 使 用 ， 因 为 它们 有 助 于 诊断 领域 对 象 在 某 些 (有限 但 相当 常见 的 ) 情况 下 的 内 存 泄漏 。 


应 用 程序 的 领域 对 象 地 位 有 点 特殊 。 因 为 它们 表示 的 是 应 用 程序 中 最 重要 的 
业务 关注 点 ， 所 以 当 你 寻找 像 内 存 泄漏 之 类 的 错误 时 ， 它 们 非常 显眼 。 
































为 了 说 明 原 因 ， 需 要 考虑 关于 Java 堆 的 儿 个 基本 事实 。 

。 分 配 的 最 常见 的 数据 结构 包括 字符 串 、 字 符 数 组 、 字 市 数 组 和 Java 集合 类 型 的 实例 。 
。 在 jmap 中 ， 与 泄漏 相对 应 的 数据 将 表现 为 大 得 反常 的 数据 集 。 

也 就 是 说 ， 我 们 希望 不 管 是 按照 内 存 容 量 还 是 实例 数目 计算 ， 排 在 前 面 的 条 目 一 般 是 来 自 
核心 JDK 的 数据 结构 。 如 果 在 jmap 生成 的 前 30 个 左右 的 条 目 中 出 现 了 特定 于 应 用 程序 的 
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领域 对 象 ， 那 就 可 能 是 内 存 泄漏 的 迹象 ， 当 然 这 并 非 确定 性 结论 。 

领域 对 象 发 生 泄漏 的 另 一 个 常见 行为 是 对 “所 有 代 ” 的 影响 。 之 所 以 出 现 这 种 影响 ， 是 因 
为 特定 类 型 的 对 象 在 应 该 回收 的 时 个 没 被 回收 ， 从 而 导致 它们 最 终 会 存活 足够 长 的 时 间 而 
进入 Tenured 区 ， 在 熬 过 足够 多 的 收集 周 其 后， 它们 的 代 计数 可 能 会 表现 为 各 种 可 能 的 值 。 
如 果 用 每 代 的 字 节 数 按照 数据 类 型 画 一 个 直方 图 ， 那 我 们 将 看 到 潜在 会 发 生 泄漏 的 领域 对 
象 会 在 所 有 代 中 出 现 ， 这 可 能 是 因为 它们 非 自然 地 活 过 了 自己 的 自然 寿命 。 

快速 的 解决 办 法 是 查看 与 领域 对 象 对 应 的 数据 集 的 大 小 并 检查 这 是 否 合理 ， 是 否 在 工作 集 
中 应 该 出 现 的 领域 对 象 的 数量 的 预期 范围 之 内 。 

另外 ， 短 寿命 的 领域 对 象 可 能 是 我 们 遇 到 的 另 一 种 形式 的 浮动 垃圾 问题 出 现 的 原因 。 回 想 
一 下 针对 并 发 收集 器 的 SATB 的 约束 一 一 任何 对 象 ， 无 论 生 命 周 期 多 么 短暂 ， 如 果 它们 在 
标记 周期 开始 后 分 配 ， 就 会 被 认为 是 活 的 。 

从 泄漏 的 领域 对 象 上 偶尔 还 会 观察 到 的 另 一 个 特征 是 ， 它 们 可 能 会 成 为 导致 
垃圾 收集 标记 时 间 很 长 的 元 由， 其 根本 原因 是 一 个 单个 的 长 寿命 对 象 会 使 一 
整个 长 链条 上 的 对 象 存活 下 来 。 































































































对 很 多 应 用 程序 而 言 ， 领 域 对 象 就 像 是 “煤矿 里 的 金 丝 誉 "， 因 为 它们 是 业务 关注 点 最 明 
显 、 最 自然 的 表示 ， 所 以 似乎 更 容易 受到 内 存 泄漏 的 影响 。 关 注 性 能 的 开发 人 员 应 该 确保 
他 们 了 解 自己 的 领域 和 相关 工作 集 的 大 小 。 


11.6 ”避免 终结 化 


Java 的 finalize() 机 制 尝 试 提供 自动 资源 管理 ， 其 方式 类 似 于 C++ 中 的 资源 获取 即 初 始 
化 (resource acquisition is initialization，RAI) 模式 。 在 该 模式 中 ， 需 要 提供 一 个 析 构 方法 
(在 Java 中 就 是 finalize())， 当 对 象 被 销毁 时 ， 这 个 析 构 方法 可 以 自动 清理 和 释放 资源 。 
因此 ， 基 本 的 使 用 情况 非常 简单 。 它 会 在 创建 对 象 时 接管 其 个 资源 的 所 有 权 ， 并 且 一 直 持 
续 到 该 对 象 的 生命 周期 结束 。 然 后 当 对 象 死亡 时 ， 该 资源 的 所 有 权 会 被 自动 放弃 。 


这 种 模式 也 称 为 自动 资源 管理 (automatic resource management，ARM)。 



























































种 方式 的 标准 示例 是 ， 当 程序 员 打 开 一 个 文件 句柄 时 ， 他 很 容易 忘记 在 不 再 需要 的 时 候 
调用 cLose() 函数 。 

接 下 来 看 一 个 快速 而 简单 的 C++ 示例， 它 展示 了 如 何在 C 风格 的 文件 IO 之 外 加 一 层 
RAI 封装 : 


class file error {}; 





[ey 











class file { 
public: 
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file(const char* filename) : _h file(std::fopen(filename, "w+")) { 
if (_h_file == NULL) { 
throw file_error(); 
} 
} 


// 析 构 函数 
~file() { std::fclose(_h file); } 


void write(const char* str) { 
if (std::fputs(str, _h file) == EOF) { 
throw file_error(); 
} 
上 


void write(const char* buffer, std::size t numc) { 
if (numc != 0 && std::fwrite(buffer, numc, 1, _h_file) == 0) { 
throw file error(); 
} 
} 


private: 
std::FILE* h file; 
}; 
这 带 来 了 良好 的 设计 ， 特 别 当 一 个 类 型 是 作为 茶 个 资源 (比如 一 个 文件 或 网 络 套 接 字 ) 的 
“ 持 有 者 ”存在 时 。 在 这 种 情况 下 ， 将 资源 的 所 有 权 与 对 象 的 生命 周期 紧密 联系 在 一 起 是 
有 意义 的 。 这 样 自动 释放 对 象 的 资源 就 成 了 平台 的 责任 ， 而 不 再 是 程序 员 的 责任 。 


11.6.1 血泪 史 : 忘记 清理 

和 软件 领域 的 很 多 血泪 史 一 样 ， 这 个 故事 始 于 多 年 来 一 直 运 行 良 好 的 生产 代码 。 它 是 一 个 通 
过 TCP 连接 到 另 一 个 服务 来 建立 权限 信息 的 服务 。 权 限 服务 相当 稳定 ， 具 有 良好 的 负载 均衡 ， 
通常 可 以 立即 响应 请 求 。 每 当 有 请 求 时 ， 都 会 打开 一 个 新 的 TCP 连接， 这 在 设计 上 很 不 理想 。 
一 个 周末 ， 某 个 变化 导致 权限 系统 的 响应 时 间 稍 微 慢 了 一 些 ， 从 而 使 得 TCP 连接 偶尔 出 
现 超时 ， 这 个 代码 路 径 之 前 在 生产 中 从 未 出 现 过 。 系 统 捕获 了 抛 出 的 TimeOutException， 
没有 任何 日 志 ， 而 且 因 为 之 前 的 代码 中 设 有 finaLty 块 ， 所 以 之 前 在 正常 路 径 下 会 调用 的 
close() 函数 也 没 被 调用 。 

不 幸 的 是 ， 这 还 不 是 问题 的 全 部 。 没 有 调用 close() 函数 意味 着 TCP 连接 处 于 打开 状态 。 
最 终 ， 应 用 程序 所 运行 的 生产 机 器 耗 光 了 所 有 的 文件 句柄 ， 进 而 也 影响 了 在 该 机 器 上 运行 
的 其 他 进程 。 解 决 方案 是 重 写 代码 ， 首 先 关 闭 TCP 连接 并 立即 打 补 十， 其 次 建立 一 个 连接 
池 ， 不 需要 为 每 个 资源 打开 一 个 新 的 连接 。 

忘记 调用 close() 是 一 个 很 容易 犯 的 错误 ， 尤 其 是 在 使 用 专 有 库 时 。 


11.6.2 为 什么 不 使 用 终结 化 来 解决 这 个 问题 


Java 最 初 在 0bject 类 上 提供 了 finalize() 方法 ， 它 默认 不 执行 任何 操作 (通常 应 该 保持 
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这 种 方式 )。 但 是 ， 它 可 以 覆盖 finaLize() 并 提供 某 种 行为 。JavaDoc 对 此 描述 如 下 。 
当 垃 圾 收集 器 确定 没有 更 多 引用 指向 该 对 象 时 ， 调 用 该 方法 。 子 类 通过 敌 盖 finalize() 
方法 来 释放 系统 资源 或 执行 其 他 清理 。 
之 所 以 这 样 实现 ， 是 因为 JVM 的 垃圾 收集 器 作为 一 个 子 系统 可 以 明确 说 明 对 象 已 经 死亡 。 
如 果 某 个 类 型 提供 了 finaLize() 方法 ， 那 么 该 类 型 的 所 有 对 象 都 会 被 特殊 对 待 。 履 盖 了 
finalize() 方法 的 对 象 会 被 垃圾 收集 器 特殊 处 理 。JVM 的 实现 方式 是 ， 当 调用 java.lang. 
0bject 的 构造 器 代码 (任何 对 象 的 调用 路 径 上 一 定 会 在 某 个 点 调用 它 ) 正常 返回 时 ， 为 其 
注册 单独 的 可 终结 对 象 。 


这 里 HotSpot 需要 注意 的 一 个 细节 是 ， 除 了 标准 的 Java 指令 外 ， 虚 拟 机 还 有 一 些 特殊 的 、 
与 实现 相关 的 字 节 码 。 这 些 特殊 的 字 节 码 用 于 重 写 标准 的 字 节 码 以 应 对 某 些 特殊 情况 。 

由 字 节 码 定 义 的 完整 列表 ， 包 括 标准 的 Java 字 节 码 和 HotSpot 专用 的 字 节 码 ， 都 可 以 在 
hotspot/share/interpreter/bytecodes.cpp 中 找到 。 就 目的 而 言 ， 只 需要 关注 专用 的 return_ 
register_finalizer 字 节 码 ， 这 是 因为 JVMTI 可 能 重 写 0bject.<init>() 的 字 节 码 。 为 了 
严格 遵循 标准 ， 必 须 确定 0bject.<init>() 完成 的 点 〈 而 不 用 重 写 代码 )， 并 且 使 用 专用 的 
字 节 码 来 标记 这 个 点 。 


在 HotSpot 解释 器 中 可 以 看 到 实际 将 对 象 注 册 为 需要 终结 化 的 代码 。 文 件 src/hotspot/cpu/ 
X86/cl Runtime.cpp 中 包含 了 HotSpot 解释 器 x86 版 本 的 核心 部 分 。 这 必定 是 与 处 理 器 相 
关 的 ， 因 为 HotSpot 大 量 使 用 了 低级 的 汇编 /机 器 代码 。register_finaLizer_id 分 支 中 包 
含 了 注册 代码 。 

一 旦 对 象 被 注册 为 需要 终结 化 ， 那 它 在 垃圾 收集 周期 中 就 不 会 被 立即 回收 ， 而 会 遵循 以 下 
这 个 扩展 的 生命 周期 。 


1. 可 终结 对 象 被 移 到 一 个 队列 中 。 

2. 在 应 用 线程 重新 启动 之 后 ， 独 立 的 终结 线程 会 处 理 访 队列， 运行 每 个 对 象 上 的 finalize() 
方法 。 

3. 一 旦 finalize() 方法 结束 ， 对 象 就 可 以 在 下 一 个 周期 进行 真正 回收 。 

总 之 ， 所 有 要 被 终结 化 的 对 象 必须 首先 让 垃圾 收集 标记 识别 为 不 可 达 ， 然 后 被 终结 化 ， 最 

后 必须 再 次 运行 垃圾 收集 ， 才 能 完成 数据 收集 。 这 意味 着 终结 化 对 象 至 少 要 多 进行 一 次 额 

外 的 垃圾 收集 周期 。 对 于 已 经 进入 Tenured 区 的 对 象 而 言 ， 时 间 可 能 会 相当 长 。 终 结 队列 

的 处 理 过 程 如 图 11-5 所 示 。 






























































启动 第 二 个 
终结 线程 
的 终结 线程 、 包 ) finalize() 











11-5; 终结 队列 的 处 理 过 程 
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finalize() 方法 还 存在 其 他 问题 。 比 如 ， 如 果 它 在 被 终结 线程 执行 时 抛 出 异常 会 发 生 什 么 
情况 ? 这 时 因为 用 户 的 应 用 程序 代码 中 没有 上 下 文 ， 所 以 该 异常 会 被 直接 忽略 。 开 发 人 员 
无 从 知道 ， 也 没有 办 法 从 终结 化 引起 的 故障 中 恢复 。 
此 外 ， 终 结 化 过 程 也 可 能 包含 一 个 阻塞 操作 ， 因 此 需要 JVM 生成 一 个 线程 来 运行 finalize() 
方法 ， 而 创建 和 运行 新 的 线程 则 会 带 来 加 有 开销 。 此 外 ， 虽 然 线程 的 创建 和 管理 不 在 开发 
人 员 的 控制 范围 之 内 ， 但 为 了 避免 锁 住 整个 JVM 子 系统 ， 它 又 是 必要 的 。 
终结 化 的 大 部 分 实现 实际 上 是 在 Java 中 进行 的 。JVM 有 独立 的 线程 来 执行 终结 化 ， 该 线 
程 与 应 用 程序 线程 同时 运行 ， 完 成 所 需要 的 大 部 分 工作 。 核 心 功能 包含 在 包 私 有 类 java. 
lang.ref.Finalizer 中 ， 读 起 来 应 该 相当 简单 。 
从 这 个 类 中 可 以 看 到 运行 时 是 如 何 向 特定 的 类 授予 额外 权限 的 。 比 如 ， 其 中 包含 了 像 这 样 
的 代码 : 

/* Invoked by VM */ 


static void register(Object finalizee) { 
new Finalizer(finalizee); 





























和 


当然 ， 在 普通 的 应 用 程序 代码 中 ， 这 么 写 是 没有 意义 的 ， 因 为 它 创建 了 一 个 未 使 用 的 对 
象 。 除 非 构造 器 有 副作用 〈 而 在 Java 中 这 通常 会 被 认为 是 一 个 糟糕 的 设计 决策 )， 否 则 这 
将 毫 无 用 处 。 在 这 种 情况 下 ， 其 意图 是 “ 钧 住 ”一 个 新 的 可 终结 对 和 象 。 

终结 化 的 实现 也 非常 依赖 FinalReference 类 。 它 是 java.Lang.ref.Reference 的 一 个 
子 类 ， 并且 是 在 运行 时 作为 特殊 情况 能 够 感知 的 类 。 与 更 出 名 的 软 引 用 和 弱 引 用 一 样 ， 
FinalReference 对 象 也 会 被 垃圾 收集 子 系统 特殊 对 待 ， 其 中 包含 一 种 支持 虚拟 机 和 Java 代 
码 (包括 平台 和 用 户 ) 之 间 进 行 有 趣 交 互 的 机 制 。 


然而 ， 由 于 Java 和 C++ 这 两 种 语言 的 内 存 管理 机 制 之 间 存在 差别 ， 因 此 尽管 有 技术 价值 ， 
Java 的 实现 仍 存 在 致命 缺陷 。 在 C++ 的 情况 下 ， 动 态 内 存 是 手动 处 理 的 ， 在 程序 员 的 控制 
之 下 显 式 地 管理 对 象 的 生命 周期 。 这 意味 着 当 对 象 被 删除 时 ， 析 构 就 会 发 生 ， 因 此 资源 的 
获取 和 释放 直接 与 对 象 的 生命 周期 有 关 。 


Java 的 内 存 管理 子 系统 是 一 个 根据 需要 运行 的 垃圾 收集 器 ， 在 用 于 分 配 的 可 用 内 存 耗 尽 时 
做 出 响应 。 因 此 ， 它 运行 的 时 间 间 隔 是 不 确定 的 ， 而 finalize() 方法 只 有 当 对 象 被 收集 时 
才 会 运行 ， 这 个 时 间 也 是 未 知 的 。 

换 名 话说， 终结 化 并 不 能 安全 地 实现 自动 资源 管理 ， 因 为 垃圾 收集 器 的 运行 没有 任何 时 间 
保证 。 这 意味 着 在 这 个 机 制 中 ， 没 有 任何 东西 能 将 资源 的 释放 与 对 象 的 生命 周期 联系 起 
来 ， 所 以 资源 总 可 能 被 耗 尽 。 


终结 化 不 符合 其 最 初 的 主要 目的 。 多 年 来 ，Oracle (和 Sun) 给 开发 人 员 的 建议 是 ， 避 免 
在 普通 的 应 用 程序 代码 中 使 用 终结 化 ， 而 且 0bject.finalize() 在 Java 9 中 已 经 被 废弃 了 。 



























































11.6.3 try-with-resources 
在 Java 7 之前， 关闭 资源 的 责任 完全 掌握 在 开发 人 员 手 中 。 正 如 在 11.6.1 节 中 所 讨论 的 ， 
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我 们 很 容易 忘记 请 理 ， 直 到 生产 问题 出 现时 才 广 意 到 其 影响 。 下 面 的 代码 示例 演示 了 在 
Java 7 之 前 开发 人 员 的 责任 : 


public void readFirstLineOld(File file) throws IOException { 
BufferedReader reader = null; 
try { 
reader = new BufferedReader(new FileReader(file)); 
String firstLine = reader.readLine(); 
System.out.println(firstLine); 
} finally { 
if (reader != null) { 
reader .close(); 





} 

} 
开发 人 员 必 须 做 到 以 下 几 点 。 
.创建 BufferedReader ， 并 将 其 初始 化 为 nutL， 以 确保 它 在 finally 块 中 可 见 。 
. 抛 出 ， 或 捕捉 并 处 理 IOException (可 能 还 有 它 隐藏 的 FileNotFoundException)。 
. 执行 与 外 部 资源 交互 的 业务 逻辑 。 
. 检查 reader ， 确 定 它 不 是 null 上 时， 关闭 资源 。 
这 个 示例 只 使 用 了 一 个 外 部 资源 ， 但 在 处 理 多 个 外 部 资源 时 ， 复 杂 性 就 会 大 大 增加 。 如 果 
需要 提醒 ， 可 以 查看 原始 的 JDBC 调用 。 


try-with-resources 是 Java 7 中 添加 的 语言 级 构造 ， 支 持 在 try 关键 字 之 后 的 括号 中 说 明 要 
创建 的 资产。 任何 实现 了 AutoCtoseable 接口 的 对 象 都 可 以 用 于 try 后 的 括号 中 。 在 try 
块 的 作用 域 结 束 时 ，ctLose() 方法 将 被 自动 调用 ， 不 再 需要 开发 人 员 必 须 记 住 去 调用 该 函 
数 。 下 面 对 close() 方法 的 调用 表现 与 前 面 的 代码 示例 一 样 ， 无 论 业 务 逻辑 中 是 否 会 抛 出 
异常 ， 都 会 运行 : 
public void readFirstLineNew(File file) throws IOException { 
try (BufferedReader reader = new BufferedReader(new FileReader(file))) { 


String firstLine = reader.readLine(); 
System.out.println(firstLine); 
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} 
javap 可 以 用 来 比较 两 个 版 本 生成 的 字 节 码 ， 下 面 是 第 一 个 示例 中 的 字 节 码 ; 


public void readFirstLineOld(java.io.File) throws java.io.IOException; 
Code: 
0: aconst_null 
1: astore 2 
2: new #2 // class java/io/BufferedReader 
5: dup 
6: new #3 // class java/io/FileReader 
9 
0 
1 














: dup 

: aload_1 

: invokespecial #4 // Method java/io/FileReader."<init>": 
// (Ljava/io/File;)V 





14: 


17: 
18: 
19: 


22:: 
233 
226 
2 了 


30 : 
31: 
34: 
35: 
38: 
41: 
43: 
44: 
47: 
48: 
SLs 
53: 
54: 


invokespecial #5 


astore_2 
aload 2 
invokevirtual #6 


astore_3 
getstatic #7 
aload_3 
invokevirtual #8 


aLoad_2 
ifnull 54 
aload_2 
invokevirtual #9 
goto 54 
astore 4 
aload 2 
ifnull 51 
aload 2 
invokevirtual #9 
aload 4 
athrow 
return 


Exception table: 
from to target t 


2 30 41 
41 43 41 


// Method java/io/BufferedReader."<init>": 
// (Ljava/io/Reader;)V 


// Method java/io/BufferedReader .readLine: 
// ()Ljava/Lang/String; 
// Field java/lang/System.out:Ljava/io/PrintStream; 


// Method java/io/PrintStream.println: 
// (Ljava/lang/String;)V 


// Method java/io/BufferedReader.close:()V 


// Method java/io/BufferedReader.close:()V 


ype 
any 
any 


与 try-with-resources 版 本 等 价 的 字 节 码 如 下 : 


public 


Code: 


12: 


15% 
16: 
7 
18: 
19: 


223 
24: 
27: 
29 : 


32: 
33: 
36 : 


\D 0 ~ 上 书 


void readFirstLine 


new #2 
dup 

new #3 
dup 

aload_1 


invokespecial #4 
invokespecial #5 


astore_2 
aconst_null 
astore_3 

aload 2 
invokevirtual #6 


astore 4 
getstatic #7 
aload 4 


invokevirtual #8 


aLoad_2 
ifnull 108 
aload_3 


New(java.io.File) throws java.io.IOException; 
// class java/io/BufferedReader 

// class java/io/FileReader 

// Method java/io/FileReader."<init>" 

// (Ljava/io/File;)V 


// Method java/io/BufferedReader."<init>": 
// (Ljava/io/Reader;)V 


// Method java/io/BufferedReader .readLine: 
// ()Ljava/Lang/String; 


// Field java/lang/System.out:Ljava/io/PrintStream; 


// Method java/io/PrintStream.println: 
// (Ljava/lang/String;)V 
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37: ifnul 
40: aload 


Ll 


2 


58 


41: invokevirtual #9 // Method java/io/BufferedReader.close:()V 


44: goto 
47: astor 
49: aload 
50: aload 


52: invokevirtual #11 // Method java/lang/Throwable.addSuppressed: 


55: goto 
58: aload 


& 


3 


2 


108 
4 


4 


// (Ljava/lang/Throwable; )V 
108 


59: invokevirtual #9 // Method java/io/BufferedReader.close:()V 


62: goto 
65: astor 
67: aload 
69: astor 
70: aload 
72: athro 
73: astor 
75: aload 
76: Tfnut 
79: aload 
80: ifnul 
83: aload 


e 
e_3 


W 
a 


区, 


Ll 


3 


Ll 


4 


108 
4 
4 
4 


5 


101 


84: invokevirtual #9 // Method java/io/BufferedReader.close:()V 


87: goto 
90: astor 
92: aload 
93: aload 


95: invokevirtual #11 // Method java/lang/Throwable.addSuppressed: 


98: goto 
101: aload 


各 


[3 


2 


105 
6 


6 


// (Ljava/lang/Throwable; )V 
105 


102: invokevirtual #9 // Method java/io/BufferedReader.close:()V 


105: aload 
107: athro 
108: retur 


Exception table: 


from 
40 
18 
18 
83 
65 


从 表面 上 看 ，try-with-resources 只 是 一 种 可 以 


W 
n 


5 


to target type 


44 
32 
32 
87 
75 


47 
65 
73 
90 
3 


CLass java/lang/Throwable 
CLass java/lang/Throwable 
any 
CLass java/lang/Throwable 
any 








自动 生成 样本 代码 的 编译 器 机 制 。 然 而 ， 


Al 





坚持 使 用 时 ， 你 会 发 现 它 是 一 个 非常 有 用 的 简化 机 制 ， 可 以 让 类 不 必 知 道 如 何 释放 和 清理 
其 他 类 ， 进 而 能 够 更 好 地 封装 和 编写 没有 错误 的 代码 。 
要 实现 与 C++ RAII 模式 类 似 的 功能 ， 推 荐 使 用 try-with-resources 机 制 。 它 确实 把 使 用 模 
式 限制 为 基于 块 作用 域 的 代码 ， 但 这 是 由 于 Java 平台 缺乏 对 对 象 生 命 周期 的 底层 可 见 性 。 














Java 开发 人 员 在 处 至 


个 很 好 的 设计 实践 








o 








LE 资源 对 象 时 必须 遵循 原则 ， 并 尽 可 能 限制 其 作用 域 一 一 这 本 身 就 是 一 








现在 我 们 应 该 清楚 ， 尽 管 这 两 种 机 制 (终结 化 和 try-with-resources) 有 着 相同 的 设计 意 
但 彼此 之 间 有 着 本 质 的 区 别 。 
终结 化 依赖 于 远 在 运行 时 内 部 的 汇编 代码 来 注册 用 于 特殊 垃圾 收集 行为 的 对 象 。 然 后 ， 它 使 
用 垃圾 收集 器 来 启动 请 理 ， 该 清理 借助 于 一 个 引用 队列 和 单独 的 专用 终结 线程 。 特 别 是 ， 终 
结 化 在 字 节 码 中 几乎 没有 任何 痕迹 ， 而 且 这 个 功能 是 由 虚拟 机 内 部 的 特殊 机 制 提供 的 。 


相 比 之 下 ，try-with-resources 则 是 一 个 纯粹 的 编译 时 特性 ， 可 以 将 其 视 为 语法 糖 ， 只 是 简 
单 地 产生 常规 的 字 市 码 ， 没 有 其 他 特殊 的 运行 时 行为 。 使 用 try-with-resources 唯一 可 能 六 
生 的 性 能 影响 是 ， 由 于 它 会 导致 自动 生成 大 量 的 字 市 码 ， 因 此 可 能 会 影响 JIT 编译 器 有 效 
地 内 联 或 编译 使 用 这 种 机 制 的 方法 的 能 

但 是 ， 和 所 有 其 他 六 在 的 性 能 影响 一 样 ， 工 程 师 应 该 衡量 使 用 try-with-resources 对 运行 时 
性 能 产生 的 影响 ， 只 有 能 够 明确 看 出 该 特性 正在 引发 问题 ， 才 需要 花费 精力 进行 重 构 。 


总 之 ， 对 于 资源 管理 和 几乎 其 他 所 有 情况 ， 终 结 化 都 不 合适 。 终 结 化 依赖 于 垃圾 收集 ， 而 
垃圾 收集 本 身 就 是 一 个 不 确定 的 过 程 。 这 意味 着 任何 依赖 终结 化 的 东西 都 没有 关于 资源 何 
时 被 释放 的 时 间 保 证 。 
无 论 最 终 是 否 会 移 除 已 经 被 废弃 的 终结 化 ， 我 们 的 建议 都 是 一 样 的 ， 不 要 编写 覆盖 finalize() 
的 类 ， 如 果 自 己 的 代码 中 有 任何 这 样 的 类 ， 那 就 进行 重 构 。 


11.7 方法 句柄 


第 9 章 介 绍 了 invokedynamic。 这 是 Java 平台 在 Java 7 中 引入 的 一 个 主要 进展 ， 可 以 更 灵 
活 地 确定 在 调用 点 要 执行 哪个 方法 。 需 要 注意 的 是 ，invokedynamic 调用 点 直到 运行 时 才 
能 确定 调用 哪个 方法 。 

相反 ， 当 调用 点 通过 解释 器 到 达 时 ， 会 调用 一 个 特殊 的 辅助 方法 ， 即 所 谓 的 引导 方法 
(bootstrap method，BSM)。BSM 会 返回 一 个 对 象 ， 该 对 象 表 示 在 这 个 调用 点 应 该 调用 的 
实际 方法 。 它 被 称 为 调用 目标 (call target) ， 被 加 入 到 了 这 个 调用 点 中 。 


在 最 简单 的 情况 下 ， 调 用 目标 只 需要 查找 一 次 ， 那 就 是 第 一 次 遇 到 这 个 调用 
点 时 ; 但 遇 到 更 复杂 的 情况 时 ， 调 用 点 可 能 会 失效 ， 所 以 需要 重新 查找 (有 
可 能 生成 不 同 的 调用 目标 )。 
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一 个 关键 的 概念 是 方法 句柄 (method handle) ， 它 是 一 个 对 象 ， 表 示 应 该 从 invokedynamic 
调用 点 调用 的 方法 。 这 与 反射 中 的 概念 有 点 类 似 ， 但 反射 有 些 固有 的 限制 ， 使 其 不 适合 用 
于 invokedynamic。 

相反 ，Java 7 增加 了 一 些 新 的 类 和 包 (特别 是 java.lang.invoke.MethodHandle) 来 表示 指 
向 方法 的 直接 可 执行 的 引用 。 这 些 方法 句柄 对 象 有 一 组 存在 关联 的 方法 ， 也 就 是 可 用 于 执 
行 其 底层 的 方法 。 其 中 invoke() 是 最 常见 的 ， 但 也 有 一 些 附 加 的 辅助 方法 ， 以 及 与 主要 的 
调用 (invoker) 方法 稍 有 区 别 的 变种 。 

就 像 反 射 调用 一 样 ， 方 法 句柄 的 底层 方法 可 以 有 任何 签名 。 因 此 ， 出 现在 方法 句柄 上 的 调 
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用 方法 的 签名 应 该 非常 宽松 ， 以 便 提供 充分 的 灵活 性 。 不 过 方法 句柄 还 有 一 个 反射 所 不 具 
备 的 新 特性 。 
为 了 解 这 个 新 特性 是 什么 以 及 它 为 什么 重要 ,现在 来 看 一 段 以 反射 方式 调用 方法 的 简 
单 代码 : 

Method m = ... 


Object receiver = ... 
Object o = m.invoke(receiver, new Object(), new Object()); 














生成 的 字 节 码 也 不 足 为 奇 : 
17: iconst 0 
18: new #2 // class java/lang/Object 
21: dup 


22: invokespecial #1 // Method java/lang/Object."<init>":()V 

25: aastore 

26: dup 

27: iconst_ 1 

28: new #2 // class java/lang/Object 

31: dup 

32: invokespecial #1 // Method java/lang/Object."<init>":()V 

35: aastore 

36: invokevirtual #3 // Method java/lang/reflect/Method.invoke 
// :(Ljava/lang/Object; [Ljava/lang/Object;) 
// Ljava/lang/Object; 


iconst 和 aastore 操作 码 用 于 将 可 变 参 数 的 第 0 个 和 第 1 个 元 素 存储 到 一 个 数组 中 ， 然 后 传 
给 invoke()。 很 明显 ， 之 后 字 节 码 调用 的 整体 签名 就 是 invoke: (Ljava/lang/0bject;[Ljava/ 
lang/0bject; )Ljava/Lang/object; ， 因 为 该 方法 接受 一 个 对 象 参数 (方法 的 接收 者 )， 后 面 
跟 的 是 要 传递 给 反射 调用 的 数量 可 变 的 参数 。 它 最 终 会 返回 一 个 0bject， 所 有 这 些 都 表明 
在 编译 时 我 们 对 这 个 方法 调用 一 无 所 知 ， 而 是 要 等 到 运行 时 才 知 道 它 的 各 个 方面 。 
因此 ， 这 是 一 个 非常 通用 的 调用 ， 如 果 接 收 者 和 Method 对 象 不 匹配 ， 或 者 参数 列表 不 正 
确 ， 那 它 就 可 能 在 运行 时 失败 。 
作为 对 比 ， 接 下 来 看 一 个 用 方法 句柄 来 实现 的 简单 示例 : 

MethodType mt = MethodType.methodType(int.class); 


MethodHandles.Lookup \ = MethodHandles.Tlookup(); 
MethodHandle mh = 1.findVirtual(String.class, "hashCode", mt); 











String receiver = "b"; 
int ret = (int) mh.invoke(receiver); 
System.out.println(ret); 


调用 有 两 个 部 分 : 首先 是 方法 句柄 的 查找 ， 然 后 是 其 调用 。 在 真实 的 系统 中 ， 这 两 个 部 分 
在 时 间或 代码 位 置 上 距离 可 能 非常 远 。 方 法 句柄 是 不 可 变 的 稳定 对 象 ， 可 以 轻松 地 缓存 下 
来 并 持 有 ， 供 以 后 使 用 。 
虽然 查找 机 制 看 起 来 像 是 额外 的 样板 代码 ， 但 它 是 用 来 纠正 反射 从 诞生 之 初 就 一 直 存在 的 
一 个 问题 一 一 访问 控制 。 
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当 一 个 类 初始 加 载 时 ， 会 广泛 地 检查 其 字 节 码 ， 包 括 确认 这 个 类 不 会 恶意 尝试 去 调用 任何 
它 无 法 访问 的 方法 。 任 何 这 样 的 尝试 都 会 导致 类 加 载 过程 失 败 。 

出 于 性 能 方面 的 考虑 ， 一 旦 类 被 加 载 后 ， 就 不 会 再 进行 进一步 的 检查 了 。 因 此 ， 我 们 可 以 
尝试 利用 反射 代码 。 由 于 多 方面 的 原因 ， 反 射 子 系统 ( 早 在 Java 1.1 中 就 有 了 ) 最 初 所 做 
的 设计 选择 并 没有 让 人 完全 满意 。 

方法 句柄 API 采取 了 一 种 不 同 的 方法 : 查找 上 下 文 。 要 使 用 它 , 需要 通过 调用 MethodHandles. 
Lookup() 来 创建 一 个 上 下 文 对 象 。 返 回 的 不 可 变 对 象 中 的 状态 记录 了 在 这 个 上 下 文 对 象 被 
创建 的 地 方 ， 哪 些 方法 和 字段 是 可 以 访问 的 。 

这 意味 着 ， 上 下 文 对 象 既 可 以 立即 使 用 ， 也 可 以 保存 下 来 。 这 种 灵活 性 支持 选择 性 地 访问 
某 个 类 的 私有 方法 (通过 缓存 一 个 Lookup 对 象 ， 并 过 滤 掉 它 的 访问 )。 相 比 之 下 ， 反 射 只 
能 生硬 地 设置 setAccessible()， 这 完全 破坏 了 Java 访问 控制 的 安全 特性 。 


现在 来 看 看 方法 句柄 示例 中 查找 部 分 的 字 市 码 : 


0: getstatic #2 // Field java/lang/Integer.TYPE:Ljava/lang/Class; 
3: invokestatic #3 // Method java/lang/invoke/MethodType.methodType: 
// (Ljava/lang/Class;)Ljava/lang/invoke/MethodType; 












































6: astore_1 
7: invokestatic #4 // Method java/lang/invoke/MethodHandles.Tlookup: 
// ()Ljava/lang/invoke/MethodHandles$Lookup; 


10: astore 2 

11: aload 2 

12: ldc #5 // class java/lang/String 
14: ldc #6 // String hashCode 

16: aload_1 


17: invokevirtual #7 // Method java/lang/invoke/MethodHandles$Lookup.findVirtual: 
// (Ljava/lang/Class;Ljava/lang/String;Ljava/lang/invoke/ 
// MethodType; )Ljava/lang/invoke/MethodHandle; 

20: astore_3 


这 段 代码 生成 了 一 个 上 下 文 对 象 ， 能 够 查看 在 lookup() 静态 调用 发 生 的 位 置 可 以 访 
问 的 每 个 方法 。 这 里 我 们 可 以 使 用 findvirtual() 和 相关 方法 来 获取 在 该 点 上 可 见 的 
任何 方法 的 句柄 。 如 果 试 图 通过 查找 上 下 文 来 访问 一 个 不 可 见 的 方法 ， 那 么 就 会 抛 出 
IllegalAccessException。 与 反射 不 同 ， 程序 员 无 法 破坏 或 关闭 这 个 访问 检查 。 

在 示例 中 ， 我 们 只 是 在 String 上 查找 公开 的 hashCode() 方法 ， 不 需要 特殊 访问 。 然 而 ， 
我 们 仍然 必须 使 用 查找 机 制 ， 平 台 也 依旧 会 检查 这 个 上 下 文 对 象 是 否 可 以 访问 所 请 求 的 方 
法 。 接 下 来 看 看 调用 方法 句柄 产生 的 字 市 码 : 





21: lde #8 // String b 
23: astore 4 

25: aload_ 3 

26: aload 4 


28: invokevirtual #9 // Method java/lang/invoke/MethodHandle.invoke 
// :(Ljava/lang/String;)I 


31: istore 5 
33: getstatic #10 // Field java/lang/System.out:Ljava/io/PrintStream; 
36: iload 5 


38: invokevirtual #11 // Method java/io/PrintStream.println:(I)V 
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这 与 反射 的 情况 有 本 质 的 不 同 ， 因 为 对 invoke() 的 调用 不 是 可 以 接受 任何 参数 的 通用 调 
用 ， 相反 ， 它 描述 了 在 运行 时 应 该 调用 的 方法 的 预期 签名 。 

与 相应 的 反射 调用 情况 相 比 ， 方 法 句柄 调用 的 字 节 码 包含 了 更 好 的 、 关 于 调 
用 点 的 静态 类 型 信息 。 




















在 这 个 示例 中 ， 调 用 签名 是 invoke:(Ljava/Lang/String; )I， 而 在 MethodHandle 的 JavaDoc 
中 ， 没 有 任何 信息 表明 该 类 有 这 样 的 一 个 方法 。 


相反 ，javac 源 代码 编译 器 为 这 个 调用 推导 出 了 一 个 合适 的 类 型 签名 ， 并 生成 了 相应 的 调 
用 字 节 码 ， 即 使 MethodHandle 上 没有 这 样 的 方法 。javac 生成 的 字 节 码 也 设置 了 栈 ， 这 样 
该 调用 将 以 通常 的 方式 被 分 派 〈 假 设 它 可 以 被 链接 ) ， 而 不 需要 将 任何 可 变 参数 装 箱 到 数 
组 中 。 

任何 加 载 这 个 字 节 码 的 JVM 运行 时 都 需要 按照 这 样 的 方式 来 链接 该 方法 调用 : 期 望 该 方 
法 句柄 能 在 运行 时 表示 对 正确 签名 方法 的 调用 ， 并 且 invoke() 调用 实质 上 将 被 替换 为 对 底 
层 方 法 的 委托 调用 。 


Java 语言 的 这 个 略 显 奇 怪 的 特性 被 称 为 签名 多 态 性 (signature polymorphism ) ， 
只 适用 于 方法 句柄 。 




















当然 ， 这 是 一 个 非常 不 像 Java 语言 的 特性 ， 而 且 使 用 场景 有 意 偏向 语言 和 框架 实现 者 ( 比 
如 C# 的 dynamic 特性 )。 


对 于 许多 开发 人 员 来 说 ， 如 果 要 简单 地 理解 方法 句柄 ， 那 就 是 它们 提供 了 与 核心 的 反射 机 
制 类 似 的 功能 ， 但 是 是 以 一 种 现代 方式 来 实现 的 ， 能 最 大 程度 地 保证 静态 类 型 安全 。 


11.8 小结 

本 章 讨 论 了 标准 Java 集合 API 的 一 些 性 能 问题 ， 以 及 处 理 领 域 对 象 的 关键 关注 点 。 

最 后 我 们 探讨 了 另外 两 个 与 平台 级 别 关 系 密切 的 应 用 程序 性 能 方面 的 考虑 ， 终结 化 和 方法 
句柄。 虽然 很 多 开发 人 员 在 日 常 工作 中 并 不 会 遇 到 这 两 个 概念 ， 但 对 于 关注 性 能 的 工程 师 
来 说 ， 了 解 和 认识 它们 可 以 充实 自己 的 技术 工具 箱 。 

下 一 章 将 继续 讨论 几 个 重要 的 开源 库 ， 包 括 那 些 为 标准 集合 类 提供 替代 选择 的 库 ， 以 及 日 
志和 相关 问题 。 
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第 12 章 


并 发 性 能 技术 








在 迄今 为 止 的 计算 历史 上 ， 软 件 开 发 人 员 通 常 以 顺序 格式 编写 代码 。 程 序 设计 语言 和 硬件 
一 般 只 提供 一 次 处 理 指 令 的 能 力 。 许 多 情况 下 ， 人 们 享受 到 了 所 谓 的 “免费 午餐 ”就 是 购 
买 最 新 的 硬件 来 提高 应 用 程序 的 性 能 。 世 片上 可 用 的 晶体 管 数 量 的 增加 带 来 了 处 理 指令 性 
能 更 好 、 更 强 的 处 理 器 。 

许多 读者 都 曾 遇 见 过 这 样 的 情况 : 将 软件 搬 到 一 个 更 大 或 更 新 的 机 器 上 就 能 解决 容量 回 
题 ， 而 不 用 花 钱 去 查找 底层 问题 或 考虑 不 同 的 编程 范式 。 

摩尔 定律 最 初 预言 ， 世 片上 的 晶体管 数量 每 年 大 约会 增加 一 倍 。 后 来 ， 这 一 预测 被 细 化 到 
每 18 个 月 增加 一 倍 。 摩 尔 定律 坚持 了 大 约 50 年 ， 其 发 展 势头 越 来 越 难以 维持 ， 已 经 开 
始 动摇 了 。 图 12-1 显示 了 技术 耗 尽 的 影响 ， 它 也 是 Herb Sutter 撰写 的 “The Free Lunch Is 
Over” 一 文中 的 核心 思想 ， 该 文章 恰如其分 地 描述 了 现代 性 能 分 析 时 代 的 到 来 。 






























































注 1: Herb Sutter, “The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software, ”Dr Dobb’s 
Journal 30 (2005) , 202-210。 
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12-1: “The Free Lunch ls Over” (Sutter, 2005) 





我 们 现在 生活 在 一 个 多 核 处 理 器 普遍 存在 的 世界 里 。 编 写 得 好 的 应 用 程序 可 以 (而 且 越 来 
越 多 地 必须 ) 利用 在 多 核 上 分 配 应 用 程序 处 理 的 优势 。 像 JVM 这 样 的 应 用 程序 执行 平台 
有 具 有 明显 的 优势 ， 因 为 总 有 一 些 虚 拟 机 线程 可 以 利用 多 个 处 理 器 核心 进行 IT 编译 等 操作 。 
因此 ， 即 使 只 有 一 个 应 用 程序 线程 的 JVM 应 用 程序 也 能 从 多 核 中 受益 。 

为 了 充分 利用 当前 的 硬件 ， 现 代 的 Java 专业 开发 人 员 必 须 至 少 具备 关于 并 发 及 其 对 应 用 程 
序 性 能 的 影响 的 基础 知识 。 本 章 只 是 对 其 进行 一 个 基本 的 概述 ， 并 不 打算 介绍 Java 并 发 的 
全 部 内 容 。 相 反 ， 除 了 本 章 的 讨论 之 外 ， 还 应 该 参考 Brian Goetz 等 人 编写 的 《Java 并 发 编 
程 实践 》 等 指南 。 


12.1 并 行 介绍 


单 核 速度 在 近 50 年 的 时 间 里 不 断 得 到 提高 ， 大 约 在 2005 年 ， 它 开始 在 约 3 GHz 的 时 钟 速 
度 上 趋 于 平稳 。 然 而 在 今天 的 多 核 世界 里 ，Amdahl 定律 已 经 成 为 提高 计算 任务 执行 速度 
的 一 个 主要 考虑 因素 。 


我 们 在 1.5 市 介绍 了 Amdahl 定律 ， 本 章 会 对 其 进行 更 详细 地 描述 。 芳 虑 将 一 个 计算 任务 
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分 为 两 个 部 分 ， 一 部 分 可 以 并 行 执行 ， 另 一 部 分 必须 串 行 运行 〈《 例 如， 整理 结果 或 调度 工 

作 单 位 进行 并 行 执行 )。 

我 们 把 串 行 部 分 称 为 S， 把 任务 所 需 的 总 时 间 称 为 T。 因 为 可 以 使 用 尽 可 能 多 的 处 理 器 来 

处 理 任务 ， 所 以 把 处 理 器 的 数目 表示 为 N， 这 意味 着 我 们 应 该 把 T 作为 处 理 器 数量 的 函数 

T(N)。 同 时 ， 工 作 的 并 发 部 分 称 为 T-s5， 如 果 这 部 分 可 以 在 N 个 处 理 器 之 间 平 均 分 配 ， 那 
T(N) = S + (1/N) * (T - S) 


这 意味 着 无 论 使 用 多 少 个 处 理 器 ， 总 耗费 的 时 间 也 绝 不 能 小 于 串 行 时 间 。 所 以 如 果 串 行 开 
销 占 总 开销 的 5%， 那 么 无 论 使 用 多 少 个 核心 ， 有 效 的 加 速 时 间 也 永远 不 会 超过 20 倍 。 这 
个 见解 和 公式 是 第 1 章 介绍 Amdahl 定律 背后 的 基本 理论 ， 在 图 12-2 中 可 以 通过 另 一 种 方 
式 看 出 它 的 影响 。 








TFTmnrmnnnnnnnnnnnrnnnnnnnTnnnnnnnnn 
N=1 EE (T-S)/1 
T(1)=S+((T-S)/1) 
T mT™TTT TT TT TT TT TT TT TT 
N=2 EE EE 
T(2)= S + ((T-S)/2) 
TI T T T T T T T T T T T T T T T T 1 
N=3 [ES 
(T-S)13 
T(3)= S + ((T-S)/3) 
T mT™TTTT TT TT TT TT TT TT 










N=4 





(T-S)14 


T(4)= S + ((T-S)/4) 











12-2: 重新 审视 Amdahl 定律 


只 有 单线 程 性 能 的 提高 ， 比 如 更 快 的 核心 ， 才 能 降低 $ 的 价值 。 不 幸 的 是 ， 现 代 硬 件 的 发 
展 趋势 意味 着 CPU 的 时 钟 速度 不 会 再 有 任何 有 意义 的 提高 。 由 于 单 核 处 理 器 不 再 能 变 得 
更 快 ， 因 此 Amdahl 定律 实际 上 已 经 是 软件 扩展 的 极限 。 

Amdahl 定律 的 一 个 推论 是 ， 如 果 并 行 任 务 之 间 不 需要 通信 或 其 他 顺序 处 理 ， 那 么 理论 上 
是 可 以 无 限 提升 速度 的 。 这 类 工作 负载 被 称 为 自然 并 行 (embarrassingly parallel) ， 在 这 种 
情况 下 ， 并 发 处 理 相 当 直 接 。 
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通常 的 方法 是 在 不 共享 任何 数据 的 情况 下 ， 在 多 个 工作 线程 之 间 细 分 工作 负载 。 一 旦 线程 
之 间 引 入 了 共享 状态 或 数据 ， 工 作 负 载 的 复杂 性 就 会 增加 ， 并 且 不 可 避免 地 会 重新 引入 一 
些 串 行 处 理 和 通信 开销 。 

写 出 正确 的 程序 很 难 ; 写 出 正确 的 并 发 程序 更 难 。 与 顺序 程序 相 比 ， 在 并 发 程序 

中 可 能 出 错 的 事情 更 多 。 























一 一 《Java 并 发 编程 实践 》，Brian Goetz 等 著 


因此 ， 任 何 具 有 共享 状态 的 工作 负载 都 需要 正确 的 保护 和 控制 。 对 于 在 JVM 上 运行 的 工 
作 负 载 来 说 ， 平 台 提供 了 一 组 名 为 Java 内 存 模型 (JMM) 的 内 存 保证 。 在 深入 介绍 该 模 
型 之 前 ， 让 我 们 先 看 一 些 解释 Java 并 发 问题 的 简单 示例 。 


基本 的 Java 并 发 
并 发 的 反 下 觉 性 本 质 让 我 们 认识 到 增 量 不 是 一 个 单独 的 操作 ， 来 看 看 下 面 这 个 示例 ， 


public class Counter { 
private int i = 0; 




















public int increment() { 
return 1 = 1 + 1; 
} 
} 


分 析 编 译 后 的 字 市 码 可 以 发 现 一 系列 的 指令 ， 这 些 指令 会 导致 加 载 、 增 量 和 存储 值 : 


public int increment(); 
Code: 
0: aload_0 
: aload 0 
: getfield #2 // Field i:I 
: iconst_1 
: iadd 
: dup_x1 
: putfield #2 // Field i:I 
: ireturn 
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1 
如 果 计 数 器 没有 受到 适当 的 锁 的 保护 ， 并 且 是 以 多 线程 的 方式 访问 的 ， 那 么 在 另 一 个 线程 
存储 之 前 就 有 可 能 发 生 加载 ， 从 而 导致 更 新 丢失 。 

为 了 更 详细 地 了 解 这 个 问题 ， 可 以 考虑 两 个 线程 A 和 B， 让 它们 都 在 同一 个 对 象 上 调用 
increment() 方法 。 为 了 简单 起 见 ， 假 设 它 们 都 在 一 台 单 CPU 的 机 器 上 运行 ， 并 且 字 市 码 准 
确 地 表示 了 底层 的 执行 情况 。 因 此 ， 没 有 重新 排序 、 缓 存 效应 或 实际 处 理 器 的 其 他 细节 。 
由 于 操作 系统 调度 器 会 在 非 决定 性 的 时 间 导 致 线程 的 上 下 文 切换 ， 因 此 即使 
只 有 两 个 线程 ， 也 可 以 有 很 多 不 同 的 字 节 码 序列 。 






































假设 单 CPU 执行 的 字 节 码 如 图 所 示 (注意 ， 这 些 指令 的 执行 顺序 是 有 明确 定义 的 ， 在 实 














际 的 多 处 理 器 系统 中 是 没有 的 ) : 


A0: aload 0 

A1: aload 0 

A2: getfield #2 // FieLd i:I 
A5: iconst_1 

A6: iadd 

A7: dup_x1 

BO: aload_0 

B1: aload_0 

B2: getfield #2 // Field i:I 
B5: iconst_1 

B6: iadd 

B7: dup_x1 

A8: putfield #2 // Field i:I 
A11: ireturn 

B8: putfield #2 // Field i:I 
B11: ireturn 


因为 每 个 线程 从 它 单独 进入 方法 时 就 有 一 个 私有 的 评价 栈 ， 所 以 只 有 字段 上 的 操作 才能 相 
互 干扰 (因为 对 象 字 段位 于 堆 中 ， 且 是 共享 的 )。 

由 此 产生 的 行为 是 ， 如 果 在 A 或 B 开 始 执 行 之 前 , i 的 初始 状态 为 7， 那 么 如 果 执 行 顺序 
恰好 如 刚才 所 示 ， 则 两 个 调用 都 会 返回 8， 而 字段 状态 也 会 被 更 新 为 8， 尽 管 increment() 
被 调用 了 两 次 。 


这 个 问题 是 由 操作 系统 的 调度 引起 的 ， 不 需要 任何 硬件 技巧 就 能 发 现 它 ， 而 
且 即 使 是 在 一 个 没有 现代 特性 的 、 非 常 老 旧 的 CPU 上 也 会 出 现 这 个 问题 。 






































另 一 个 误解 是 添加 关键 字 volatile 会 使 增 量 运算 安全 。 通 过 强迫 该 值 总 能 被 缓存 重读 ， 
volatile 保证 了 任何 更 新 都 会 被 其 他 线程 看 到 。 但 是 它 并 不 能 解决 刚才 显示 的 更 新 丢失 问 
题 ， 因 为 这 是 增 量 运算 符 的 复合 性 质 造成 的 。 

下 面 的 例子 显示 了 两 个 线程 共享 对 同一 个 计数 器 的 引用 : 


package optjava; 








public class CounterExample implements Runnable { 
private final Counter counter; 


public CounterExample(Counter counter) { 
this.counter = counter; 


} 


@Override 
public void run() { 
for (int i = 0; i < 100; i+t+) { 
System.out.println(Thread.currentThread().getName() 
+ " Value: " + counter.increment()); 
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} 


计数 器 没有 synchronized 或 适当 的 锁 的 保护 。 当 一 个 程序 运行 时 ， 两 个 线程 的 执行 可 能 会 
以 不 同 的 方式 交错 。 代 码 在 某 些 情况 下 会 按照 预期 运行 ， 而 计数 器 会 正常 增 量 ， 这 要 归功 
于 程序 员 的 好 运气 ! 在 另 一 些 情况 下 ， 由 于 更 新 丢失 ， 交 错 可 能 会 在 计数 器 中 显示 重复 的 
值 ， 就 像 下面 看 到 的 这 样 : 
Thread-1 Value: 
Thread-1 Value: 
Thread-1 Value: 
Thread-0 Value: 
Thread-1 Value: 


Thread-1 Value: 
Thread-0 Value: 


换 句 话说 ， 一 个 在 大 多 数 时 间 内 成 功 运 行 的 并 发 程序 和 一 个 正确 的 并 发 程序 是 不 一 样 的 。 
证 明 它 的 失败 和 证 明 它 是 正确 的 一 样 困 难 ， 然 而 ， 只 要 找到 一 个 失败 的 例子 就 足以 证 明 它 
是 不 正确 的 。 

更 糟糕 的 是 ， 重 现 并 发 代码 中 的 错误 非常 困难 。Dijkstra 有 一 句 很 经 典 的 话 :“ 测 试 是 检测 
错误 的 存在 ， 而 不 是 没有 错误 ”， 这 和 句 话 相 对 单线 程 应 用 程序 更 适用 于 并 发 代码 。 

为 了 解决 上 述 问 题 ， 可 以 使 用 synchronized 来 控制 一 个 简单 的 值 的 更 新 ， 比 如 int， 在 
Java 5 之 前 ， 这 是 唯一 的 选择 。 

使 用 同步 的 问题 在 于 它 需 要 一 些 精心 的 设计 和 前 期 的 思考 。 如 果 不 这 样 做 ,仅仅 添加 同步 
功能 就 会 拖 慢 项 目的 速度 ， 而 不 是 加 快 它 的 速度 。 

这 与 添加 并 发 的 整个 目的 ( 即 增加 吞吐 量 ) 背道而驰 。 因 此 ， 任 何 对 代码 库 进 行 并 行 化 的 
练习 都 必须 有 性 能 测试 来 支持 ， 以 充分 证 明 增 加 复杂 性 的 好 处 。 

添加 同步 块 ， 特 别 是 当 不 存在 争 用 的 情况 下 ， 成 本 要 比 旧 版 本 的 JVM 低 很 

多 〈 但 如 果 没 有 必要 的 话 ， 仍 然 不 应 该 这 样 做 ) ， 更 多 细节 参见 10.5.2 节 。 
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为 了 更 好 地 完成 同步 ， 你 需要 了 解 JVM 的 底层 内 存 模型 以 及 如 何 将 其 应 用 于 并 发 应 用 程 
序 的 实际 技术 。 


12.2 ”理解 JMM 


Java 从 1.0 版 本 开始 就 有 了 一 个 正式 的 内 存 模型 ， 即 JMM。 这 个 模型 在 JSR 133? 中 进行 了 
大 量 修改 ， 并 修复 了 一 些 问题 ， 它 是 作为 Java 5 的 一 部 分 交付 的 。 








注 2: Java 平 台 是 通过 Java 规范 请 求 (Java Specification Request，JSR) 来 演进 的 。JSR 的 作用 是 跟踪 对 平 
台 标 准 的 增强 。 








在 Java 语言 规范 中 ，JMM 是 作为 内 存 的 数学 描述 出 现 的 。 它 有 着 让 人 敬 恨 的 名 声 ， 很 多 
开发 人 员 将 其 视 为 Java 规范 中 最 难 攻 克 的 部 分 (也许 是 除了 泛 型 之 外 )。 
JMM 试图 提供 诸如 以 下 问题 的 答案 : 
当 两 个 处 理 器 核心 访问 相同 的 数据 时 会 发 生 什么 ? 
。 什么 时 候 能 保证 它们 看 到 的 值 是 相同 的 ? 
内 存 缓存 对 这 些 答 案 有 什么 影响 ? 


无 论 在 任何 地 方 访问 共享 状态 ， 平 台 都 会 确保 JMM 所 做 的 承诺 得 到 遵守 。 这 些 承诺 主要 
分 为 两 大 类 : 与 排序 相关 的 保证 和 与 跨 线程 更 新 的 可 见 性 相关 的 保证 。 


随 着 硬件 从 单 核 系统 到 多 核 系 统 再 到 众 核 系统 ， 内 存 模型 的 性 质变 得 越 来 越 重要 。 排 序 和 
线程 可 见 性 现在 已 经 不 再 是 理论 问题 ， 而 是 成 为 直接 影响 程序 员 日 常 代码 的 实际 问题 。 
从 上 层 看 ， 像 JMM 这 样 的 内 存 模型 有 两 种 可 能 的 方案 。 
强 内 存 模型 ( strong memory model ) 

所 有 核心 在 任何 时 候 看 到 的 值 总 是 相同 的 。 
弱 内 存 模型 ( weak memory model ) 

不 同 的 核心 可 能 会 看 到 不 同 的 值 ， 有 特殊 的 缓存 规则 控制 这 种 情况 出 现 的 时 机 。 
从 编程 的 角度 来 看 ， 强 内 存 模 型 看 上 去 很 有 吸引 力 ， 特 别 是 它 不 需要 程序 员 在 编写 应 用 程 
序 代码 时 小 心 缀 翼 。 
图 12-3 显示 了 一 个 现代 多 处 理 器 系统 的 简化 视图 ， 我 们 在 第 3 章 和 第 7 章 (在 介绍 
NUMA 架构 的 地 方 讨论 过 ) 曾 见 过 这 个 视图 。 
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12-3; 现代 多 处 理 器 系统 
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如 果 在 这 种 硬件 上 实现 强 内 存 模型 ， 那 就 等 同 于 写 回 内 存 的 方法 。 缓 存 失 效 的 通知 将 渗 没 
内 存 总 线 ， 并 且 主 存 的 有 效 传输 率 将 急剧 下 降 。 随 着 核心 数量 的 增加 ， 问 题 只 会 越 来 越 严 
重 ， 从 而 使 这 种 方法 根本 不 适合 众 核 领域 。 
另外 值得 记 住 的 是 ，Java 被 设计 为 一 个 独立 于 架构 的 环境 。 这 意味 着 假如 JVM 指定 的 是 
强 内 存 模型 ， 如 果 要 在 不 支持 强 内 存 模型 的 硬件 上 运行 ， 就 需要 在 软件 层 增 加 额外 的 实现 
工作 ， 这 进而 会 大 大 增加 在 弱 内 存 模型 硬件 上 实现 JVM 所 需要 的 移植 工作 。 
实际 上 ，JMM 是 一 种 非常 弱 的 内 存 模型 。 这 更 符合 真实 CPU 架构 的 发 展 趋势 ， 包 括 
MESI (在 3.2.1 节 介 绍 过 )。 因 为 JMM 很 少 提供 保证 ， 所 以 这 也 使 得 移植 变 得 更 容易 。 
认识 到 JMM 只 是 一 个 最 低 要 求 是 非常 重要 的 。 真 正 的 JVM 实现 和 CPU 可 能 比 JMM 要 求 
的 做 得 更 多 ， 我 们 在 3.3.3 节 讨 论 过 。 
这 可 能 会 让 开发 人 员 得 到 一 种 错误 的 安全 感 。 如 果 应 用 程序 是 在 具有 比 JMM 更 强 的 内 存 
模型 的 硬件 平台 上 开发 的 ， 那 么 未 发 现 的 并 发 错误 可 以 继续 存在 ， 因 为 有 硬件 保证 它们 在 
实际 运行 的 时 候 不 会 表现 出 来 。 但 是 当 同 样 的 应 用 程序 被 部 署 到 内 存 模型 较 弱 的 硬件 上 
时 ， 并 发 错误 可 能 就 会 成 为 问题 ， 因 为 该 应 用 程序 此 时 不 再 受到 硬件 的 保护 。 
JMM 的 保证 是 基于 如 下 一 组 基本 概念 提供 的 。 
先行 发 生 

一 个 事件 确定 在 另 一 个 事件 之 前 发 生 。 












































同步 
事件 将 导致 其 对 象 的 视图 与 主 内 存 同步 。 
类 品行 


指令 在 执行 线程 之 外 看 上 去 是 按 顺序 执行 的 。 
先 释 放 ， 再 获取 

锁 要 先 被 某 个 线程 释放 ， 之 后 才 可 以 被 下 一 个 线程 获取 。 
处 理 共享 可 变 状态 的 一 个 最 重要 的 技术 是 通过 同步 进行 锁定 。 它 是 Java 并 发 性 视图 的 一 个 
基本 部 分 ， 我 们 需要 对 它 进行 深入 的 讨论 ， 以 便 充 分 地 使 用 JMM。 


对 于 那些 对 性 能 感 兴趣 的 开发 人 员 来 说 ， 仅 仅 了 解 Thread 类 和 Java 并 发 机 
制 的 语言 级 基本 原 语 是 不 够 的 。 


























在 这 个 视图 中 ， 线 程 对 对 象 的 状态 有 自己 的 描述 ， 它 所 做 的 任何 改变 都 必须 刷新 到 主 内 
存 中 ， 然 后 由 访问 其 他 相同 数据 的 线程 重新 读 取 。 正 如 在 MESI 上 下 文中 讨论 的 那样 
这 非常 适合 硬件 的 write-behind 视图 ， 但 在 JVM 中 ， 有 相当 多 的 实现 代码 包 讲 着 底层 内 
存 访问 。 

从 这 个 角度 看 ， 马 上 就 能 明白 Java 的 关键 字 synchronized 指 的 就 是 持 有 管 程 (monitor) 
的 这 个 线程 的 本 地 视图 已 经 与 主 内 存 同步 (synchronized-with)。 






































同步 的 方法 和 块 不 仅 定义 了 线程 必须 执行 同步 的 接触 点 ， 还 定义 了 一 些 代码 块 ， 这 些 代 码 
块 必须 在 其 他 同步 的 块 或 方法 启动 之 前 全 部 完成 。 


对 于 非 同 步 访问 ，JMM 没有 任何 说 明 。 在 一 个 线程 上 所 做 的 更 改 何 时 会 对 其 他 线程 可 见 ， 
它 对 此 也 没有 任何 保证 。 如 果 需 要 这 样 的 保证 ， 那 么 写 访问 必须 用 一 个 同步 块 来 保护 ， 这 
会 触发 缓存 中 的 值 被 写 入 主 内 存 。 同 样 ， 读 访问 也 必须 包含 在 一 个 同步 的 代码 段 中 以 强制 
从 内 存 中 重新 读 取 。 
在 现代 的 Java 并 发 到 来 之 前 ， 使 用 Java 的 synchronized 关键 字 是 保证 数据 跨 多 个 线程 的 
排序 和 可 见 性 的 唯一 机 制 。 
JMM 会 强制 实施 这 种 行为 ， 并 为 Java 和 内 存 安全 相关 的 假设 提供 各 种 保证 。 然 而 ， 传 统 
的 Java 的 synchronized 锁 有 以 下 几 个 局 限 性 ， 而 且 它 们 正 变 得 越 来 越 严 重 。 

同等 对 待 已 锁定 对 象 上 的 所 有 synchronized 操作 。 
。 锁 的 获取 和 释放 必须 在 一 个 方法 的 级 别 或 一 个 方法 内 的 synchronized 块 内 完成 。 
。 要 么 获取 锁 ， 要 么 线程 被 阻塞 ， 如果 无 法 获取 锁 ， 则 无 法 尝试 获取 锁 并 继续 执行 处 理 。 
一 个 很 常见 的 错误 是 忘记 了 必须 公平 对 待 已 锁定 数据 上 的 操作 。 如 果 一 个 应 用 程序 只 是 在 
写 操 作 上 使 用 synchronized， 那 就 会 导致 更 新 丢失 。 
比如 ， 读 操作 似乎 不 需要 锁定 ， 但 它 必 须 使 用 synchronized 来 保证 来 自 其 他 线程 的 更 新 的 
可 见 性 。 













































































线程 之 间 的 Java 同步 是 一 种 合作 机 制 ， 所 以 哪怕 有 一 个 参与 的 线程 不 遵守 规 
则 ， 它 也 不 能 正常 工作 。 











对 于 JMM 新 手 来 说 ， 可 参阅 JSR-133 Cookbook for Compiler Writers。 这 本 书简 要 解释 了 
JMM 的 概念 ， 没 有 包含 太 多 会 让 读者 应 接 不 暇 的 内 容 细节 。 

比如 ， 作 为 对 内 存 模型 的 处 理 的 一 部 分 ， 很 多 抽象 的 屏障 被 引入 进来 并 加 以 讨论 。 它 们 旨 
在 允许 JVM 的 实现 者 和 库 的 作者 以 相对 独立 于 CPU 的 方式 思考 Java 并 发 的 规则 。 


有 关 JVM 实现 实际 上 必须 遵循 的 规则 在 Java 语言 规范 中 有 详细 的 说 明 。 在 实践 中 ， 实 现 
每 种 抽象 屏障 的 实际 指令 在 不 同 的 CPU 上 可 能 不 同 。 比 如 ，Intel CPU 模型 会 在 硬件 中 自 
动 阻止 菜 些 重 排序 ， 所 以 上 面 提 到 的 参考 书 中 描述 的 一 些 屏障 实际 上 不 会 执行 任何 操作 。 


最 后 要 考虑 的 是 : 性 能 前 景 是 一 个 不 断 变 化 的 目标 。 自 JMM 诞生 以 来 ,无论 是 硬件 的 演 
进 还 是 并 发 的 前 沿 都 没有 停 澡 不 前 。 因 此 ，JMM 的 描述 并 不 能 充分 体现 现代 硬件 和 内 存 。 
Java 9 也 扩展 了 JMM， 试 图 赶 上 (至 少 部 分 赶 上 ) 现代 系统 的 现状 。 其 中 一 个 关键 的 方面 
是 它 兼 容 其 他 编程 环境 ， 特 别 是 C++11， 后 者 改编 了 来 自 JMM 的 一 些 理念 ， 并 进行 了 扩 
展 。 这 意味 着 C++11 模型 提供 了 Java 5 JMM (JSR 133) 范围 之 外 的 概念 定义 。Java 9 对 
JMM 进行 了 更 新 ， 将 其 中 的 一 些 概念 带 到 了 Java 平台 上 ， 并 支持 底层 的 、 和 硬件 相关 的 
Java 代码 以 一 致 的 方式 与 C++11 进行 相互 操作 。 
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要 想 更 深入 地 了 解 JMM， 可 以 参考 Aleksey Shipilév 的 博客 文章 “Close Encounters of the 
Java Memory Model Kind”， 文 中 提供 了 很 好 的 说 明和 详尽 的 技术 信息 。 


12.3 ”构建 并 发 库 


尽管 JMM 设计 得 非常 成 功 ， 但 它 很 难 理解 ， 因 此 要 转化 为 实际 应 用 更 是 困难 ， 与 此 相关 
的 是 内 部 锁 也 缺乏 灵活 性 。 

因此 ， 自 Java 5 以 来 ， 不 断 增 长 的 趋势 是 将 高 质量 的 并 发 库 和 工具 作为 Java 类 库 的 一 部 分 
进行 标准 化 ， 并 摆脱 内 置 的 语言 级 的 支持 。 在 绝 大 多 数 用 例 中 ， 即 使 是 那些 对 性 能 敏感 的 
用 例 ， 这 些 库 也 比 从 头 开 始 创 建新 的 抽象 更 合适 。 

java.util.concurrent 中 设计 的 库 使 得 在 Java 中 编写 多 线程 更 容易 。Java 开发 人 员 的 工作 
就 是 选择 最 适合 自己 需求 的 抽象 层次 ， 而 且 幸 和 运 的 是 ， 从 java.util.concurrent 选择 抽象 
恰当 的 库 还 能 带 来 更 好 的 “多 线程 ”性 能 。 

Java 提供 的 核心 构建 块 可 以 分 为 以 下 儿 类 : 

。 锁 (lock) 和 信号 量 (semaphore) 

。 原子 (atomic) 

。 阻塞 队列 (blocking queue) 

。 锁 存 器 (latch) 

。 执行 器 (executor) 

图 12-4 显示 了 一 个 典型 的 现代 并 发 Java 应 用 程序 的 表示 ， 它 是 基于 并 发 原 语 和 业务 逻辑 
建立 起 来 的 。 


http 
一 四 sa 





























线程 池 倒 计 数 Marshalling 数据 库 更 新 
锁 存 器 管理 器 











图 12-4: 并 发 应 用 程序 示例 
其 中 的 一 些 构建 块 将 在 下 一 节 讨 论 ， 但 是 在 学 习 它 们 之 前 ， 我 们 先 来 看 看 库 中 使 用 的 一 些 
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主要 实现 技术 。 了 解 并 发 库 的 实现 方式 将 有 助 于 广 重 性 能 的 开发 人 员 充 分 地 利用 它们 。 对 
于 要 处 理 极端 情况 的 开发 人 员 而 言 ， 如 果 标 准 库 不 能 满足 其 团队 的 要 求 ， 那 了 解 这 些 库 的 
工作 原理 也 能 为 他 们 选择 (或 开发 ) 超 高 性 能 的 替代 品 提供 一 个 起 点 。 

一 般 而 言 ， 这 些 库 会 尽量 摆脱 对 操作 系统 的 依赖 ， 并 且 尽 可 能 多 地 在 用 户 空间 工作 。 这 有 
很 多 优点 ， 其 中 最 重要 的 一 点 是 库 的 行为 有 望 在 全 局 范围 内 更 加 一 致 ， 而 不 是 在 不 同 的 类 
似 Unix 操作 系统 之 间 还 要 受制 于 微小 但 重要 的 变化 。 

有 些 库 (特别 是 锁 和 原子 ) 要 依靠 底层 的 处 理 器 指令 和 操作 系统 特性 来 实现 一 种 叫 作 比较 
和 交换 (compare and swap，CAS) 的 技术 。 

这 种 技术 需要 一 对 值 ， 即 “预期 的 当前 值 ” 和 “ 想 要 的 新 值 ”， 以 及 一 个 内 存 位 置 (一 个 
指针 ) 。 作 为 一 个 原子 单元 ， 会 发 生 以 下 两 个 操作 。 

1. 将 预期 的 当前 值 与 位 于 指定 内 存 位 置 的 内 容 进 行 比较 。 

2， 如 果 匹 配 ， 则 将 当前 值 与 想 要 的 新 值 交换 。 

CAS 是 用 于 一 些 更 高 级 的 关键 并 发 特性 的 基本 构建 块 ， 所 以 这 也 是 一 个 典型 的 例子 ， 说 明 
自 JMM 产生 以 来 性 能 和 硬件 的 格局 并 没有 停 灌 不 前 。 

尽管 在 大 多 数 现代 处 理 器 上 ，CAS 的 特性 是 在 硬件 中 实现 的 ， 但 它 并 不 是 JMM 或 Java 平 
台 规 范 的 一 部 分 。 相 反 ， 它 必须 被 视 为 特定 于 实现 的 扩展 ， 因 此 对 CAS 的 硬件 的 访问 是 


通过 sun.misc.Unsafe 类 提供 的 。 







































































12.3.1 Unsafe 


sun.misc.Unsafe 是 一 个 内 部 实现 类 ， 正 如 包 名 所 示 ， 它 不 是 Java 平台 标准 API 的 一 部 分 。 
因 些 ， 应 用 程序 开发 人 员 一 般 不 会 直接 使 用 它 ， 而 线索 就 在 类 名 中 。 任 何 使 用 它 的 代码 在 
技术 上 都 会 与 HotSpot 虚拟 机 直接 产生 看 合 ， 这 是 潜在 的 风险 。 


Unsafe 是 一 个 不 受 支持 的 内 部 API， 因 此 从 技术 角度 来 讲 ， 它 可 能 随时 被 取 
消 或 修改 ， 而 不 用 考虑 用 户 的 应 用 程序 。 在 Java 9 中 ， 它 已 经 被 放 在 了 jdk. 
unsupported 模块 中 ， 我 们 将 在 后 面 讨论 。 











然而 ， 基 本 上 每 种 主要 框架 的 实现 都 以 各 种 方式 在 关键 的 地 方 用 到 了 Unsafe， 因 为 它 提供 
了 打破 JVM 标准 行为 的 方法 。 比 如 ，Unsafe 使 如 下 操作 成 为 可 能 : 

。 分 配 一 个 对 象 ， 但 不 运行 它 的 构造 器 ， 

。 访问 原始 内 存 和 执行 相当 于 指针 运算 的 功能 ， 

。 使 用 处 理 器 特有 的 硬件 特性 (如 CAS)。 

这 些 操作 支持 如 下 这 些 高 级 框架 特性 : 

。 快速 序列 化 / 反 序 列 化 ; 

。 线程 安全 的 原生 内 存 访 问 (比如 堆 外 内 存 或 64 位 索引 访问 ) ; 

。 原子 内 存 操作 ， 

。 高 效 对 象 / 内 存 布局 ; 
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。 定制 内 存 屏障 ， 

。 和 原生 代码 快速 交互 ; 

。 JNI 的 多 操作 系统 替代 品 ; 

。 使 用 volatile 语义 访问 数组 元 素 。 














虽然 Unsafe 并 不 是 Java SE 的 官方 标准 ， 但 它 在 业界 的 广泛 使 用 已 经 使 其 成 为 事实 上 的 标 








准 。 此 外 ， 它 已 经 成 为 一 些 非 标准 但 必要 的 特性 的 基础 。 不 过 ， 随 着 Java 9 的 到 来 ， 这 种 


局 面 已 经 受到 了 影响 ， 预 计 在 接 下 来 的 几 个 Java 版 本 中 会 有 很 大 的 变化 。 
接 下 来 通过 探索 Java 5 中 引入 的 原子 类 来 看 看 CAS 这 一 技术 的 实际 应 用 。 


12.3.2 原子 与 CAS 











原子 类 提供 了 一 些 复合 操作 来 执行 加 、 自 增 和 自 减 法 ， 它 们 都 会 结合 一 个 get() 来 返回 
受到 影响 的 结果 ， 因 此 在 两 个 独立 的 线程 上 执行 自 增 操作 将 返回 currentValue + 1 和 
































currentValue + 2。 原 子 变量 的 语义 虽然 是 对 volatile 的 扩展 ， 但 它们 更 加 灵活 ， 
以 安全 地 执行 状态 相关 的 更 新 。 





因为 可 





原子 变量 既 不 继承 它们 所 封装 的 基础 类 型 ， 也 不 允许 直接 替换 。 比 如 ，AtomicInteger 类 








并 没有 扩展 Integer 类 ， 一 个 原因 是 java.lang.Integer 恰好 是 一 个 final 类 。 
现在 来 看 看 Unsafe 如 何 提供 一 个 简单 的 原子 调用 的 实现 : 


public class AtomicIntegerExample extends Number { 











private volatile int value; 


// 设置 使 用 Unsafe.compareAndSwapInt 来 更 新 
private static final Unsafe unsafe = Unsafe.getUnsafe(); 
private static final Long valueOffset; 


static { 
try { 
valueOffset = unsafe.objectFieldoffset( 
AtomicIntegerExample.class.getDeclaredField("value")); 
} catch (Exception ex) { 
throw new Error(ex); 
} 
} 


public final int get() { 
return value; 


} 


public final void set(int newValue) { 
value = newValue; 


} 


public final int getAndSet(int newValue) { 
return unsafe.getAndSetInt(this, valueOffset, newValue); 





这 依赖 于 Unsafe 的 一 些 方法 ， 而 且 这 里 的 关键 方法 是 原生 的 ， 会 调用 到 JVM 中 : 


public final int getAndSetInt(Object o, long offset, int newValue) { 
int v; 
do { 
v = getIntVolatile(o, offset); 
} while (!compareAndSwapInt(o, offset, v, newValue)); 





return v; 


} 
public native int getIntVolatile(Object o, long offset); 


public final native boolean compareAndSwapInt(Object o, long offset, 
int expected, int x); 


该 示例 演示 了 在 Unsafe 内 使 用 循环 来 反复 重 试 CAS 这 一 操作 。 要 有 效 使 用 原子 ， 至 关 重 
要 的 是 开发 人 员 要 使 用 所 提供 的 设施 ， 而 不 是 使 用 自己 的 实现 ， 比 如 说 在 循环 内 使 用 原子 
自 增 操 作 ， 因 为 Unsafe 实现 在 内 部 已 经 使 用 了 该 技术 。 

原子 是 无 锁 (lock-free) 的 ， 所 以 不 会 死 锁 。 通 常 原 子 会 伴随 着 一 个 内 部 重 试 循环 来 处 理 
比较 和 更 新 失败 的 情况 ， 这 一 般 会 发 生 在 另 一 个 线程 刚刚 执行 更 新 时 。 

如 果 更 新 变量 需要 进行 多 次 重 试 ， 那 么 此 重 试 循环 会 导致 性 能 线性 下 降 。 在 考虑 性 能 时 ， 
重要 的 是 监控 争 用 水 平 ， 以 确保 吞吐 量 保持 在 较 高 的 水 平 。 

使 用 Unsafe 来 提供 对 底层 硬件 指令 的 访问 ， 这 一 点 很 有 趣 ， 因 为 Java 通常 支持 开发 人 员 









































与 机 器 完全 剥离 。 然 而 ， 在 这 种 情况 下 ， 对 机 器 指令 的 访问 对 于 保证 原子 类 的 预期 语义 至 
关 重 要 。 


12.3.3 ” 锁 和 自 旋 锁 

到 目前 为 止 ， 我 们 所 遇 到 的 内 部 锁 都 是 通过 在 用 户 代 码 中 调用 操作 系统 来 工作 的 。 该 操作 
系统 会 让 一 个 线程 进入 无 限期 的 等 待 ， 直 到 收 到 信号 。 如 果 所 争 用 的 资源 只 使 用 很 得 的 一 
段 时 间 ， 那 么 这 可 能 是 一 个 巨大 的 开销 。 此 时 ， 让 被 阻塞 的 线程 在 CPU 上 保持 活跃 而 不 
用 完成 任何 有 用 的 工作 ， 然 后 重新 尝试 锁定 ， 直 到 锁 变 为 可 用 ， 这 样 来 “燃烧 CPU” 可 能 
会 更 有 效 。 

这 种 技术 被 称 为 自 旋 锁 (spinlock) ， 比 完全 的 互 斥 锁 更 为 轻 量 级 。 在 现代 系统 中 ， 自 旋 锁 
通常 使 用 CAS 来 实现 ， 并 假设 硬件 支持 CAS。 下 面 来 看 一 个 在 底层 x86 汇编 的 简单 示例 : 























Locked: 
dd 0 
spin_lock: 
mov eax, 1 
xchg eax, [locked] 
test eaxXx, eax 
jnz spin_lock 
ret 
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spin_unlock: 
mov eax, 0 
xchg eax, [locked] 
ret 


虽然 自 旋 锁 的 具体 实现 因 CPU 而 异 ， 但 其 核心 概念 在 所 有 系统 上 都 是 一 样 的 。 


“测试 并 设置 ”(test and set) 操作 必须 是 原子 的 ， 这 里 通过 xchg 指令 实现 。 
。 如 果 对 自 旋 锁 有 和 争 用 ， 那 么 正在 等 待 的 处 理 喜 就 会 执行 一 个 紧凑 的 循环 。 


如 果 预 期 的 值 是 正确 的 ， 那 么 CAS 本 质 上 就 会 支持 在 一 条 指令 中 安全 地 更 新 一 个 值 ， 进 
而 帮助 我 们 构造 用 于 锁 的 构建 块 。 


12.4 并 发 库 总 结 


前 面 介 绍 了 用 于 支持 原子 类 和 简单 锁 的 底层 实现 技术 ， 现 在 来 看 看 标准 库 如 何 使 用 这 些 技 
术 来 创建 通用 的 、 功 能 齐全 的 生产 库 。 







































































12.4.1 java.util.concurrent 中 的 Lock 
Java 5 重新 设计 了 锁 ， 并 通过 java.util.concurrent.locks.Lock 为 锁 增 加 了 一 个 更 加 通用 
的 接口 。 与 内 部 锁 的 行为 相 比 ， 这 个 接口 提供 了 更 多 的 可 能 性 。 
lock() 

以 传统 的 方式 来 获取 锁 ， 会 阻塞 直到 锁 可 用 。 
newCondition() 

创建 与 这 个 锁 有 关 的 条 件 (condition)， 支 持 更 灵活 地 使 用 该 锁 并 支持 分 离 锁 内 的 关注 

点 (比如 读 和 写 )。 
tryLock() 

尝试 获取 锁 (可 以 指定 超时 时 间 )， 人 允许 线程 在 锁 不 可 用 的 情况 下 继续 其 处 理 。 
unlock() 

释放 锁 ， 这 是 跟 在 lock() 后 面 的 相应 调用 。 
除了 支持 创建 不 同类 型 的 锁 之 外 ， 锁 现在 还 可 以 跨 多 个 方法 ， 因 为 可 以 在 一 个 方法 中 
加 锁 ， 而 在 另 一 个 方法 中 解锁 。 如 果 一 个 线程 想 以 非 阻 塞 方式 获取 锁 ， 那 可 以 使 用 
tryLock() 方法 ， 这 时 如 果 锁 不 可 用 ， 它 就 会 退回 。 
ReentrantLock 是 Lock 的 主要 实现 ， 主 要 使 用 了 一 个 带 int 的 compareAndSwap()。 因 此 ， 
在 非 争 用 的 情况 下 ， 锁 的 获取 是 无 锁 的 。 这 不 仅 可 以 极 大 地 提升 在 锁 争 用 较 少 时 系统 的 性 
能 ， 而 且 还 提供 了 支持 不 同 加 锁 策 略 的 额外 灵活 性 。 

一 个 线程 能 够 重新 获取 相同 的 锁 ， 这 种 理念 就 是 所 谓 的 可 重 入 锁 ， 它 可 以 防 
止 线程 把 自己 阻塞。 大 部 分 现代 应 用 级 别 的 锁 机 制 是 可 重 入 的 。 















































实际 调用 compareAndswap() 和 使 用 Unsafe 的 地 方 可 以 在 静态 子 类 Sync 中 找到 ， 而 Sync 继 
承 自 AbstractQueuedSynchronizer。AbstractQueuedSynchronizer 还 用 到 了 LockSupport 类 ， 
该 类 拥有 支持 挂 起 和 恢复 线程 的 方法 。 
LockSupport 类 是 通过 向 线程 发 放 许 可 来 工作 的 ， 如 果 没 有 有 效 的 许可 ， 线 程 就 必须 等 待 。 
这 里 许可 的 概念 与 信号 量 中 发 布 许可 的 概念 类 似 ， 但 它 只 有 一 个 许可 (二进制 信号 量 )。 
如 果 没 有 许可 可 用 ， 线 程 就 要 挂 起 ; 而 一 旦 有 了 有 效 的 许可 ， 那 线程 就 可 以 从 挂 起 恢复 
了 。 该 类 的 方法 取代 了 Thread.suspend() 和 Thread.resume() 这 两 个 早已 被 淘汰 的 方法 。 
有 3 种 形式 的 park() 方法 会 影响 如 下 基本 的 伪 代 码 。 

while (!canproceed()) { ... LockSupport.park(this); }} 
这 3 种 形式 的 park() 方法 如 下 。 
park(Object blocker) 

阻塞 ， 直 到 另 一 个 线程 调用 unpark()， 线 程 会 被 中 断 或 发 生 虚 假 唤醒 。 
parkNanos(Object blocker, long nanos) 

行为 与 park() 相同 ， 但 如 果 经 过 了 指定 的 时 间 (以 纳 秒 为 单位 )， 也 会 返回 。 
parkUntil(Object blocker, long deadline) 

与 parkNanos() 类 似 ， 但 是 向 场景 中 加 入 了 一 个 会 引发 该 方法 返回 的 超时 时 间 。 


























12.4.2 ” 读 / 写 锁 

应 用 程序 中 很 多 组 件 的 读 操作 和 写 操 作 的 数量 并 不 平衡 。 读 操作 不 会 改变 状态 ， 而 写 操 作 
可 以 。 使 用 传统 的 synchronized 或 ReentrantLock (不 用 条 件 ) 会 遵循 单 锁 策略 。 在 像 缓 
存 这 样 的 情况 下 ， 可 能 会 有 很 多 个 读者 和 一 个 写 者 ， 数 据 结 构 也 可 能 会 因为 另 一 个 读 操作 
而 花费 大 量 的 时 间 阻 塞 很 多 读者 ， 而 这 是 不 必要 的 。 

ReentrantReadWriteLock 类 提供 了 一 个 ReadLock 和 一 个 WriteLock， 可 以 在 代码 中 使 用 。 
其 优势 是 多 线程 读 操作 不 会 导致 其 他 线程 阻塞 ， 唯 一 会 引发 阻塞 的 操作 是 写 。 在 读者 数量 
较 多 的 情况 下 ， 使 用 这 种 加 锁 模 式 可 以 极 大 提高 线程 的 吞吐 量 并 减少 锁定 。 你 也 可 以 将 锁 
设置 为 “公平 模式 ”， 虽 然 这 样 会 降低 性 能 ， 但 可 以 保证 线程 按 顺 序 处 理 。 

与 使 用 单 锁 的 版 本 相 比 ，AgeCache 的 如 下 实现 有 很 大 改进 : 


package optjava.ch12; 









































import java.util.HashMap; 

import java.util.Map; 

import java.util.concurrent.locks.Lock; 

import java.util.concurrent.locks.ReentrantReadWriteLock; 


public class AgeCache { 
private final ReentrantReadWNriteLock rwl = new ReentrantReadWriteLock(); 
private final Lock readLock = rwl.readLock(); 
private final Lock writeLock = rwl.writeLock(); 
private Map<String, Integer> ageCache = new HashMap<>(); 





并 发 性 能 技术 | 241 


public Integer getAge(String name) { 
readLock. lock(); 


try { 
return ageCache.get(name); 
} finally { 
readLock.unlock(); 
} 
} 


public void updateAge(String name, int newAge) { 
writeLock. lock(); 
try { 
ageCache.put(name, newAge); 
} finally { 
writeLock.unlock(); 
} 
} 


} 


然而 ， 还 可 以 通过 考虑 底层 数据 结构 使 其 得 到 进一步 优化 。 在 这 个 示例 中 ， 并 发 集合 是 一 
种 更 合理 的 抽象 ， 在 多 线程 情况 下 效果 更 好 。 








12.4.3 ”信和 号 量 


信号 量 提供 了 一 种 独特 的 技术 ， 支 持 访问 多 个 可 用 的 资源 ， 比 如 凶 中 的 线程 或 数据 库 连 接 
对 象 。 信 号 量 工 作 的 前 提 是 “最 多 有 式 个 对 象 允 许 访问 ”， 它 通过 一 定数 量 的 许可 来 控制 
访问 。 

// 支持 两 个 许可 的 信号 量 ， 采 用 公平 模式 

private Semaphore pooLPermits = new Semaphore(2, true); 
Semaphore::acquire() 会 将 可 用 许可 的 数量 减少 一 个 ， 如 果 没 有 许可 可 用 ， 则 会 阻塞 。 
Semaphore: :release() 会 返回 一 个 许可 ， 如 果 有 正在 等 待 访问 的 ， 可 以 释放 一 个 出 来 。 因 
为 信号 量 经 常 被 用 在 资源 可 能 会 阻塞 或 排队 访问 的 情况 下 ， 所 以 它 很 可 能 一 开始 就 被 初始 
化 为 公平 模式 ， 以 避免 线程 饥饿 。 
只 有 一 个 许可 的 信号 量 (二 进 制 信号 量 ) 等 价 于 互 斥 量 (mutex)， 但 二 者 有 一 个 明显 的 区 
别 : 互 斥 量 只 能 由 加 锁 的 互 斥 量 的 线程 来 释放 ， 而 信号 量 可 以 由 并 不 拥有 它 的 线程 来 释 
放 。 像 这 样 需要 强制 解决 死 锁 的 场景 ， 二 进 制 信号 量 可 能 就 是 必要 的 。 信 号 量 的 另 一 个 优 
势 是 它 可 以 请 求 和 释放 多 个 许可 。 如 果 使 用 多 个 许可 ， 就 可 以 采用 公平 模式 ， 否 则 会 增加 
线程 饥饿 的 机 会 。 


12.4.4 并 发 集合 

我 们 在 第 11 章 探 索 了 可 以 对 Java 集合 进行 的 优化 。 自 Java 5 以 来 ， 已 经 有 专门 为 并 发 使 
用 而 设计 的 集合 类 接口 的 实现 。 随 着 时 间 的 推移 ， 这 些 并 发 集合 也 在 修改 和 完善 ， 以 提供 
最 佳 的 多 线程 性 能 。 







































































比如 ，Map 实现 (ConcurrentHashMap) 使 用 了 分 成 桶 或 段 的 方式 ， 我 们 可 以 利用 这 种 结构 
来 实现 性 能 的 真正 提升 。 每 个 段 可 以 有 自己 的 锁 策 略 ， 也 就 是 自己 的 一 系列 锁 ， 同 时 拥有 
一 个 读 锁 和 一 个 写 锁 来 使 多 个 读者 横 跨 整 个 ConcurrentHashMap 进行 读 取 。 如 有 果 需 要 写 ， 
则 只 需要 在 这 一 段 上 加 锁 。 读 者 通常 不 用 加 锁 就 可 以 安全 地 与 put() 和 remove() 风格 的 操 
作 重 县 执行 ， 他 们 还 会 观察 到 完整 的 更 新 操作 遵循 先行 发 生 顺 序 。 

需要 注意 的 是 ， 迫 代 器 (以 及 用 于 并 行 流 的 分 割 迭代 器 ) 是 作为 一 种 快照 获取 的 ， 因 此 它 
们 不 会 抛 出 ConcurrentModificationException。 当 碰撞 过 多 时 ， 表 将 被 动态 扩展 ， 进 而 导 
致 该 操作 的 成 本 可 能 会 非常 高 。 如 果 你 在 编写 代码 的 时 候 知 道 其 大 概 的 大 小 ， 那 么 提前 给 
出 来 是 值得 的 (和 HashMap 一 样 ) 。 

Java 5 还 引入 了 CopyOnWriteArrayList 和 CopyOnNriteArraySet， 它 们 在 某 些 使 用 模式 下 可 
以 提高 多 线程 的 性 能 。 在 使 用 这 些 类 型 的 情况 下 ， 任 何 针对 该 数据 结构 的 修改 操作 都 会 引 
发 创建 背后 数组 的 一 份 新 副本 。 任 何 现 有 的 返 代 器 都 可 以 继续 遍历 旧 数组 ， 一 旦 所 有 引用 
丢失 ， 旧 的 数组 副本 就 符合 垃圾 收集 的 条 件 了 。 同 样 ， 这 种 快照 式 的 返 代 方式 可 以 确保 不 


会 引起 ConcurrentModificationException。 
在 读 取 操作 比 修改 操作 多 很 多 的 系统 中 使 用 写 时 复制 (copy-on-write) 数据 结构 ， 这 种 权 


衡 表 现 良 好 。 如 果 你 正在 考虑 使 用 这 种 方法 ， 那 么 记得 在 进行 修改 操作 的 同时 使 用 一 组 良 
好 的 测试 来 测量 性 能 改进 。 


12.4.5 ” 锁 存 器 和 屏障 


要 控制 一 组 线程 执行 ， 锁 存 器 和 屏障 是 很 有 用 的 技术 。 比 如 可 以 编写 一 个 这 样 的 系统 ， 其 
中 工作 线程 负责 执行 以 下 操作 。 

1. 从 某 个 API 中 检索 数据 并 进行 解析 。 

2. 将 结果 写 和 数据库。 
3. 最 后 ， 基 于 SQL 查询 计算 结果 。 
如 果 系 统 只 是 简单 地 启动 所 有 的 线程 运行 ， 那 么 就 无 法 保证 事件 的 顺序 。 要 是 你 希望 让 所 
有 线程 在 启动 任务 #3 之 前 ， 先 完成 任务 #1， 再 完成 任务 志 ， 那 一 种 可 能 的 选择 是 使 用 锁 
存 器 。 假 设 我 们 有 5 个 线程 在 运行 ， 代 码 可 以 这 样 写 : 


package optjava.ch12; 
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import java.util.concurrent.CountDownLatch; 
import java.util.concurrent.ExecutorService; 
import java.util.concurrent.Executors; 
import java.util.concurrent.TimeUnit; 


public class LatchExample implements Runnable { 
private final CountDownLatch latch; 
public LatchExample(CountDownLatch latch) { 


this.latch = latch; 


} 
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@Override 
public void run() { 
// 调用 一 个 API 
System.out.printLn(Thread.currentThread().getName() + " Done API Call'"); 
try { 
Latch .countDown( ) ; 
Latch.await(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
System.out.println(Thread.currentThread().getName() 
+ " Continye processing"); 


} 


public static void main(String[] args) throws InterruptedException f{ 
CountDownLatch apiLatch = new CountDownLatch(5); 


ExecutorService pool = Executors.newFixedThreadPool(5); 
for (int i = 0; i < 5; i++) { 
pool.submit(new LatchExample(apiLatch)); 
} 
System.out.printLn(Thread.currentThread().getName() 
+" about to await on main.."); 
apiLatch.await(); 
System.out.println(Thread.currentThread().getName() 
+ " done awaiting on main.."); 
pool.shutdown(); 
try { 
pool.awaitTermination(5, TimeUnit.SECONDS); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


System.out.println("API Processing Complete'"); 


} 


在 这 个 示例 中 ， 锁 存 器 的 计数 被 设置 为 5， 每 个 线程 都 会 调用 countdown()， 将 计数 减少 1。 
一 旦 计数 达到 6， 锁 存 器 就 会 打开 ， 任 何在 await() 函数 上 等 待 的 线程 都 会 被 释放 ， 并 继 
续 进 行 处 理 。 
需要 注意 的 是 ， 这 种 类 型 的 锁 存 器 是 一 次 性 的 。 一 旦 结果 为 6， 锁 存 器 就 不 能 重复 使 用 ， 
它 是 无 法 重 置 的 。 


锁 存 器 在 诸如 启动 期 间 的 缓存 填充 和 多 线程 测试 等 示例 中 非常 有 用 。 












































在 示例 中 ， 你 可 以 使 用 两 个 不 同 的 锁 存 器 : 一 个 用 于 等 待 API 结果 完成 ， 另 一 个 用 于 等 待 
数据 库 结 果 完 成 。 你 也 可 以 使 用 一 个 CycLicBarrier， 它 可 以 被 重 置 。 然 而 ， 要 弄 请 楚 应 
该 由 哪个 线程 来 控制 重 置 也 是 相当 有 挑战 的 ， 它 会 涉及 另 一 种 类 型 的 同步 。 一 个 常见 的 最 
佳 实践 是 为 流水 线 中 的 每 个 阶段 使 用 一 个 屏障 或 锁 存 器 。 
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12.5 执行 器 和 任务 抽象 


在 实践 中 ， 大 多 数 Java 程序 员 不 应 该 处 理 底层 的 线程 问题 。 相 反 ， 我 们 应 该 寻求 使 用 
java.util.concurrent 中 的 一 些 特性 ， 它 们 支持 在 适当 的 抽象 层次 上 进行 并 发 编程 。 比 如 ， 
使 用 java.util.concurrent 中 的 一 些 库 ， 让 线程 保持 忙碌 ， 从 而 获得 更 好 的 多 线程 性 能 
(比如 让 一 个 线程 处 于 运行 状态 ， 而 不 是 阻塞 和 处 于 等 待 状态 )。 

剥离 了 与 线程 相关 的 绝 大 部 分 重要 内 容 的 抽象 层次 可 以 描述 为 并 发 任务 ， 它 指 的 是 我 们 需 
要 在 并 发 执行 上 下 文 内 运行 的 代码 或 工作 单元 。 将 工作 单元 考虑 为 任务 可 以 简化 并 发 程序 
的 编写 ， 因 为 开发 人 员 不 必 考 虑 用 于 执行 任务 的 实际 线程 的 生命 周期 。 


12.5.1 认识 异步 执行 


在 Java 中 实现 任务 抽象 的 一 种 方式 是 使 用 callable 接口 来 表示 会 返回 一 个 值 的 任务 。 
Callable<V> 是 泛 型 接口 ， 其 中 定义 了 一 个 国 数 caLL()， 该 国 数 会 返回 一 个 V 类 型 的 值 ， 
在 无 法 计算 结果 的 情况 下 会 抛 出 异常 。 虽 然 表 面 上 Callable 与 Runnable 看 起 来 非常 相似 ， 
但 是 Runnable 既 不 会 返回 结果 ， 也 不 会 抛 出 异常 。 


如 果 Runnable 抛 出 了 一 个 未 被 捕获 的 Unchecked 异常 ， 那 它 会 在 栈 中 传播 ， 
执行 线程 会 默认 停止 运行 。 






























































在 线程 的 生命 周期 内 处 理 异常 是 一 个 很 困难 的 编程 问题 ， 因 为 如 果 管 理 不 当 ， 就 会 

Java 程序 以 非 正 常 状 态 继 纪 中 运行 。 还 应 该 注意 的 是 ， 线 程 有 可 能 被 实现 为 操作 系 乡 级 别 的 
进程 ， 从 而 导致 在 某 些 操作 系统 上 创建 线程 的 成 本 非常 高 昂 。 要 从 Runnable 中 获得 任何 结 
果 ， 可 能 也 会 增加 额外 的 复杂 性 ， 特 别 是 要 与 另 一 个 线程 协调 执行 返回 时 。 


Callable<V> 类 型 为 我 们 提供 了 一 种 很 好 地 处 理 任 务 抽 象 的 方法 ， 但 是 这 些 任务 实际 是 如 
何 执行 的 呢 ? 


Executorservice 是 一 个 接口 ， 它 定义 了 在 一 个 托管 的 线程 池上 执行 任务 的 机 制 ， 而 它 的 实 
际 实现 定义 了 池 中 的 线程 应 该 如 何 管理 以 及 应 该 有 多 少 个 线程 。Executorservice 可 以 通过 
submit() 方法 及 其 重 载 版 本 来 接收 Runnable 或 Callable。 


宁国 关 Executens 有 一 系列 new* 工厂 方法 ， 这 些 方法 可 以 根据 所 选择 的 行为 来 构造 服务 和 
底层 的 线程 池 。 通 常 使 用 以 下 这 些 工厂 方法 来 创建 新 的 执行 器 对 象 。 
newFixedThreadPool(int nThreads) 
构造 一 个 具有 固定 大 小 的 线程 池 的 ExecutorService， 其 中 的 线程 将 被 重复 使 用 以 运行 
多 个 任务 ， 从 而 避免 了 为 每 个 任务 多 次 创建 线程 的 成 本 。 当 所 有 的 线程 都 在 使 用 时 ， 新 
的 任务 会 被 保存 在 一 个 队列 中 。 
newCachedThreadPool() 
构造 一 个 Executorservice， 它 将 根据 需要 创建 新 的 线程 ， 并 尽 可 能 重复 使 用 线程 。 已 
创建 的 线程 会 被 保留 60 秒 ， 之 后 会 从 缓存 中 删除 。 对 于 小 型 的 异步 任务 ， 使 用 这 个 线 
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程 池 可 以 提供 更 好 的 性 能 。 
newSingleThreadExecutor() 
构造 一 个 底层 只 有 单个 线程 的 ExecutorService。 任 何 新 提交 的 任务 都 会 被 排队 ， 直 到 
该 线程 可 用 。 这 种 类 型 的 执行 器 可 以 用 于 控制 并 发 执行 的 任务 数量 。 
newScheduledThreadPool(int corePooLSize) 
它 创 建 的 Executorservice 拥有 一 系列 额外 的 方法 ， 可 以 接受 Catlable 类 型 和 一 个 延迟 
参数 ， 让 任务 在 未 来 的 某 个 点 执行 。 
一 旦 任务 被 提交 ， 它 将 被 异步 处 理 ， 用 于 提交 任务 的 代码 可 以 选择 以 阻塞 或 轮 询 的 方式 等 
待 结果 。 调 用 ExecutorService 的 submit() 方法 会 返回 一 个 Future<V>， 它 支持 阻塞 式 的 调 
用 一 一 get() 或 指定 超时 时 间 的 get()， 或 非 阻塞 式 的 调用 一 一 以 通常 方式 使 用 isDone()。 














12.5.2 ”选择 一 个 ExecutorService 


选择 恰当 的 ExecutorService 可 以 很 好 地 控制 异步 处 理 ， 而 且 如 果 为 线程 池 选 择 了 合适 的 
线程 数 ， 就 可 以 产生 明显 的 性 能 收益 。 


我 们 也 可 以 编写 一 个 自 定 义 的 ExecutorService， 但 是 一 般 没 有 必要 ， 原 因 之 一 是 类 库 提 供 
了 定制 选项 ThreadFactory。ThreadFactory 允许 类 的 作者 编写 定制 的 线程 创建 代码 ， 也 可 
以 设置 线程 的 属性 ， 比 如 名 称 、 守 护 状 态 和 线程 优先 级 。 


在 整个 应 用 程序 的 设置 中 ，Executorservice 有 时 也 需要 根据 经 验 进行 调 优 。 充 分 了 解 服务 
运行 将 要 依赖 的 硬件 和 其 他 竞争 资源 是 调 优 工作 中 很 有 价值 的 一 部 分 。 


通常 要 用 到 的 一 个 指标 是 核心 的 数量 与 池 中 线程 数量 的 对 比 情况 。 如 果 所 选 的 要 并 发 运行 
的 线程 数量 高 于 可 用 的 处 理 器 数量 ， 那 就 可 能 会 出 现 问题 并 引发 争 用 。 操 作 系统 需要 调度 
要 运行 的 线程 ， 而 这 又 会 引发 上 下 文 切换 。 

当 和 争 用 达到 特定 国 值 时 ， 转 向 并 发 处 理 所 获 得 的 性 能 优势 就 会 往 相反 方向 发 展 了 。 这 就 是 
为 什么 对 于 一 个 好 的 性 能 模型 ， 能 够 测量 性 能 改进 (或 损失 ) 是 必 不 可 少 的。 我 们 在 第 5 
章 讨论 了 性 能 测试 技术 和 进行 性 能 测试 时 应 该 避免 的 反 模 式 。 
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12.5.3 Fork/Join 


Java 提供 了 几 种 不 同 的 实现 并 发 的 方法 ， 不 需要 开发 人 员 控 制 和 管理 自己 的 线程 。Java 7 
引入 了 Fork/Join 框架 ， 提 供 了 一 个 新 的 API， 可 以 有 效 地 配合 多 个 处 理 器 工作 。 它 基于 
ExecutorService 的 一 个 叫 作 ForkJoinPool 的 新 实现 。 这 个 类 提供 了 一 个 托管 的 线程 池 ， 
它 有 以 下 两 个 特性 : 
它 可 以 用 于 高 效 地 处 理 细 分 任务 ; 
它 实 现 了 工作 窃取 (work-stealing) 算法 。 
对 细 分 任务 的 支持 是 通过 ForkJoinTask 类 引入 的 ， 这 是 一 个 类 似 线 程 的 实体 ， 但 是 比 
标准 的 Java 线程 更 为 轻 量 级 。 预 期 的 使 用 场景 是 ， 潜 在 的 大 量 任务 和 子 任务 可 以 由 
ForkJoinPool 执行 器 中 的 少量 实际 线程 来 支撑 。 















































ForkJoinTask 的 关键 是 它 可 以 将 自己 反复 细 分 为 “更 小 ”的 任务 ， 直 到 任务 规模 小 到 可 以 
直接 计算 。 为 此 ， 该 框架 只 适合 特定 类 型 的 任务 ， 比 如 计算 纯 国 数 或 其 他 “自然 并 行 ”的 
任务 。 即 使 是 那样 ， 要 充分 利用 Fork/Join 的 这 部 分 功能 ， 可 能 也 需要 重 写 算法 或 代码 。 
然而 ，Fork/Join 框架 的 工作 窃取 算法 部 分 可 以 独立 于 任务 细 分 使 用 。 比 如 ， 如 果 一 个 线程 
已 经 完成 了 分 配给 它 的 所 有 工作 ， 而 另 一 个 线程 有 积压 工作 ， 那 它 将 从 繁忙 线程 的 队列 中 
窃取 工作 。 这 种 在 多 个 线程 之 间 重 新 平衡 作业 的 想法 非常 简单 ， 但 又 很 聪明 ， 带 来 的 效果 
也 很 可 观 。 在 图 12-5 中 可 以 看 到 工作 窃取 的 演示 。 



























































图 12-5: 工作 窃取 算法 


ForkJoinPool 有 一 个 静态 方法 commonPooL()， 它 会 返回 指向 系统 级 的 池 的 引用 。 这 不 仅 能 
让 开发 人 员 不 必 创建 自 己 的 了 地 ， 还 为 共享 提供 了 机 会 。 这 个 公共 的 池 采 用 的 是 情 性 初始 化 
策略 ， 所 以 只 在 需要 的 时 候 才 会 创建 。 
这 个 池 的 大 小 被 定义 为 Runtime.getRuntime().availableProcessors() -1。 然 而 ， 这 个 方 
法 未 必 总 能 返回 预期 的 结果 。 
Heinz Kabutz 在 Java Specialists 邮件 列表 上 写 道 ， 他 发 现 了 一 个 案例 ， 在 一 台 配 备 了 16 个 
揪 槽 ， 每 个 插 槽 有 4 个 核心 ， 每 个 核心 有 2 个 超 线程 的 机 器 上 ， 返 回 值 为 16， 这 看 上 去 是 
韭 常 低 的。 根据 在 计算 机 上 测试 所 获得 的 直觉 ， 我 们 期 望 的 结果 是 16 * 4* 2 = 128。 然 而 ， 
如 果 在 这 人 台 机 器 上 运行 Java 8， 那 它 会 将 公共 的 Fork/Join 池 的 并 行 度 设置 为 只 有 15。 
虚拟 机 并 不 是 真 的 知道 处 理 器 是 什么 ， 它 只 是 向 操作 系统 询问 一 个 数字 。 同 理 ， 
操作 系统 通常 也 不 会 在 意 ， 它 会 询问 硬件 。 硬 件 会 回应 一 个 数字 ， 通 常 是 “硬件 
线程 ”的 数量 。 操 作 系 统 相 信 硬 件 ， 虚 拟 机 相信 操作 系统 。 
































Brian Goetz 
幸运 的 是 ， 有 一 个 标志 人 允许 开发 人 员 以 可 编程 的 方式 设置 预期 的 并 行 度 : 


-Djava.util.concurrent.ForkJoinpool.common.parallelism=128 
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不 过 正如 第 5 章 中 所 讨论 的 ， 要 小 心 使 用 魔法 标志 。 而 且 正 如 我 们 将 讨论 的 选择 
parallelstrean 选项 一 样 ， 没 有 什么 是 免费 的 | 


Fork/Join 的 工作 窃取 正 越 来 越 多 地 被 库 和 框架 开发 人 员 所 利用 ， 即 便 设 有 任务 细 分 。 比 如 
将 在 12.6.3 节 介 绍 的 Akka 框架 ， 就 是 为 了 使 用 工作 窃取 而 用 到 了 ForkJoinPool。Java 8 
的 到 来 也 大 大 提升 了 Fork/Join 的 使 用 水 平 ， 因 为 parallelstream() 在 背后 使 用 了 公共 的 
Fork/Join 池 。 


12.6 现代 Java 并 发 


Java 中 的 并 发 最 初 是 为 这 样 的 环境 设计 的 : 有 些 会 长 期 运行 但 存在 阻塞 的 任务 ， 比 如 VO 
和 其 他 类 似 的 缓慢 操作 ， 等 待 的 时 间 就 可 以 供 其 他 线程 交错 执行 。 现 在 ， 几 乎 开发 人 员 
为 其 编写 代码 的 每 一 台 机 器 都 是 多 处 理 器 系统 ， 所 以 高 效 利用 可 用 的 CPU 资源 是 非常 明 
智 的 。 

然而 ， 在 Java 将 并 发 内 置 其 中 时 ， 业 界 对 此 并 没有 很 多 经 验 。 事 实 上 ，Java 是 第 一 个 在 语 
言 级 别 内置 了 线程 支持 的 工业 级 标准 环境 。 因 此 ， 开 发 人 员 在 并 发 方面 的 许多 惨痛 教训 是 
在 Java 中 首次 遇 到 的 。Java 一 般 不 会 废弃 特性 (尤其 是 核心 特性 )， 所 以 Thread API 仍然 
是 Java 的 一 部 分 ， 而 且 永 远 都 是 。 

这 就 导致 了 这 样 一 种 情况 ， 即 在 现代 应 用 程序 的 开发 中 ， 与 Java 程序 员 习 惯 于 编写 的 代码 
的 抽象 层次 相 比 ， 线 程 是 相当 底层 的 。 比 如 ， 在 Java 中 我 们 不 需要 手动 管理 内 存 ， 那 么 为 
什么 Java 程序 员 要 处 理 线 程 创 建 和 其 他 生命 周期 事件 等 底层 工作 呢 ? 


幸运 的 是 ， 现 代 Java 提供 了 一 个 环境 ， 使 我 们 可 以 利用 内 置 于 语言 和 标准 库 中 的 抽象 来 获 
得 显著 的 性 能 提升 。 因 此 ， 开 发 人 员 一 方面 可 以 利用 并 发 编程 的 优势 ， 另 一 方面 减少 了 面 
对 底层 编程 时 的 挫折 和 样板 代码 。 


12.6.1 流 和 并 行 流 

到 目前 为 止 ，Java 8 的 最 大 变化 (可 以 说 是 有 史 以 来 最 大 的 变化 ) 是 引入 了 Lambda 和 流 。 
将 两 者 一 起 使 用 可 以 提供 一 种 “神奇 的 开关 ”，i Java 开发 人 员 能 够 获得 函数 式 编程 风格 
的 一 些 好 处 。 


抛 开 Java 8 作为 一 门 语言 实际 能 达到 的 函数 式 程度 这 个 相当 复杂 的 问题 不 谈 ， 我 们 可 以 认 
为 Java 现在 有 了 一 种 新 的 编程 范式 。 这 种 更 加 国 数 式 的 风格 关注 的 是 数据 ， 而 不 是 它 一 直 
使 用 的 、 命 令 式 的 以 及 面向 对 象 的 方法 。 


Java 中 的 流 是 一 个 不 可 变 的 数据 项 序列 ， 传 达 来 自 数据 源 的 元 素 ， 它 可 以 是 来 自任 何 类 型 
的 数据 源 (集合 与 WO)。 我 们 在 流 上 使 用 诸如 map() 等 接收 Lambda 表达 式 或 函数 对 象 的 
操纵 操作 来 处 理 数据 。 从 外 部 迭代 (传统 的 for 循环 ) 到 内 部 迭代 ( 流 ) 的 这 种 转变 为 数 
据 的 并 行 化 和 复杂 表达 式 的 惰性 求 值 带 来 了 良好 的 机 会 。 

现在 所 有 的 集合 都 提供 了 来 自 cotlection 接口 的 stream() 方法 。 这 是 一 个 默认 方法 ， 它 
提供 了 一 个 从 任何 集合 创建 流 的 实现 ， 并 在 背后 创建 了 一 个 ReferencePipeline。 
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第 二 个 方法 是 paraLteLStrean()， 可 以 用 来 并 行 地 处 理 数据 项 ， 并 重新 组 合 结果 。 使 用 
parallelstream() 会 涉及 使 用 一 个 Spliterator 来 对 工作 进行 分 解 ， 并 在 公共 的 Fork/Join 
池上 执行 计算 。 这 是 处 理 自然 并 行 回 题 的 一 种 很 方便 的 技术 ， 因 为 流 的 项 是 不 可 变 的 ， 所 
以 就 避免 了 在 并 行 处 理 时 修改 状态 的 问题 。 


与 使 用 RecursiveAction 重新 编码 相 比 ， 流 的 引入 带 来 了 一 种 在 语法 上 更 友好 地 使 用 Fork/ 
Join 的 方式 。 用 数据 来 表达 问题 与 任务 抽象 类 似 ， 开 发 人 员 不 必 考 虑 底层 的 线程 机 制 和 数 
据 易 变性 的 问题 。 


总 是 使 用 parallelstream() 可 能 很 吸引 人 ， 但 是 使 用 这 种 方法 也 是 有 成 本 的 。 和 任何 并 行 
计算 一 样 ， 工 作 必 须 被 分 解 为 可 以 跨 多 个 线程 的 任务 ， 然 后 重新 组 合 结果 ， 这 和 是 Amdahl 
定律 的 一 个 直接 的 例子 。 


在 较 小 的 集合 上 ， 串 行 计 算 实 际 上 可 能 更 快 。 在 使 用 parallelstream() 时 ， 务 必 总 是 保 
持 谨 什 ， 并 进行 性 能 测试 。 不 能 充分 利用 计算 能 力 可 能 损失 惨重 ， 但 是 “测量 ， 而 不 是 猜 
测 ” 在 这 里 也 适用 。 在 使 用 并 行 流 提 升 性 能 时 ， 收 益 应 该 是 直接 、 可 测量 的 ， 所 以 不 要 证 
目地 将 顺序 流转 换 为 并 行 。 


12.6.2 无 锁 技 术 

无 锁 技 术 的 出 发 点 是 阻塞 对 吞吐 量 不 利 ， 会 降低 性 能 。 阻 塞 的 问题 是 它 相当 于 向 操作 系统 
表明 有 机 会 对 当前 线程 进行 上 下 文 切换 。 

考虑 一 个 在 双核 机 器 上 运行 tl 和 也 两 个 线程 的 应 用 程序 。 加 锁 可 能 会 导致 线程 被 上 下 文 
切换 出 去 ， 之 后 回 到 另 一 个 处 理 器 上 。 此 外 ， 和 暂停 和 唤醒 所 需 的 时 间 会 很 显著 ， 从 而 导致 
加 锁 技 术 可 能 比 无 锁 技 术 慢 很 多 。 

Disruptor 模式 可 以 突显 无 锁 并 发 的 潜在 性 能 收益 ， 它 是 一 种 现代 设计 模式 ， 最 初 由 LMAX 
(London Multi Asset Exchange) 引入 。 当 与 ArrayBLockingQueue 进行 基准 测试 对 比 时 ， 
Disruptor 的 表现 高 出 了 几 个 数量 级 。GitHub 项 目 页 面 列 出 了 其 中 的 一 些 对 比 ， 我 们 从 该 页 
而 选择 了 一 个 示例 ， 性 能 数字 如 表 12-1 所 示 。 

表 12-1: LMAX 性 能 统计 : 以 每 秒 操作 数 表示 的 吞吐 量 


ArrayBLockingQueue Disruptor 







































































Unicast: 1]P-1C 5 339 256 25 998 336 
Pipeline: 1P-3C 2 128 918 16 806 157 
Sequencer: 3P-1C 3.539 531 13 403 268 
Multicast: 1]P-3C 1 077 384 9:377:871 


这 些 惊 人 的 结果 是 通过 自 旋 锁 实现 的 。 两 个 线程 之 间 的 同步 实际 上 是 通过 一 个 volatile 变 
量 (以 确保 跨 线程 的 可 见 性 ) 来 手动 控制 的 : 


private volatile int proceedValue; 





La 


while (i != proceedValue) { 
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// 忙 循环 


保持 CPU 核心 旋转 ， 意 味 着 一 旦 接收 到 数据 就 可 以 立即 在 该 核心 上 操作 ， 而 不 需要 进行 
上 下 文 切换 。 


当然 无 锁 技 术 也 是 有 成 本 的 。 一 直 占 用 着 一 个 CPU 核心 会 导致 在 利用 率 和 功 耗 方面 成 本 
高 昂 ， 因 为 计算 机 越 来 越 已 ， 但 实际 上 什么 也 没有 做 ， 而 越 忙 就 会 越 热 ， 从 而 需要 更 多 功 
耗 来 给 什么 都 没 处 理 的 核心 降温 。 
运行 需要 这 种 吞吐 量 的 应 用 程序 ， 往 往 要 求 程序 员 对 软件 的 底层 机 制 有 很 好 的 理解 。 这 里 
又 可 以 引用 机 械 共鸣 (代码 如 何 与 硬件 交互 ) 这 个 方法 作为 补充 。 这 并 非 巧合 ， 机 械 共鸣 
(mechanical sympathy) 这 个 术语 正 是 由 Martin Thompson 引入 的 ， 而 他 也 是 Disruptor 模式 
的 提出 者 之 一 。 
“机 械 共 鸣 ” 这 个 名 字 来 自 伟大 的 赛车 手 Jackie Stewart， 他 曾 3 次 获得 国际 汽车 
联合 会 世界 一 级 方程 式 锦标 赛 冠军 。 他 相信 最 佳 车 手 对 机 器 如 何 工作 有 足够 的 理 
解 ， 所 以 他 们 能 与 赛车 协调 一 致 。 
































Martin Thompson 


12.6.3 ”基于 Actor 的 技术 
近年 来 ， 出 现 了 几 种 不 同 的 方法 来 表示 任务 ， 在 某 种 程度 上 它们 比 线程 小 一 些 ， 我 们 已 经 
在 ForkJoinTask 类 中 见 过 这 种 理念 。 另 一 种 流行 的 方法 是 Actor 范 型 (actor paradigm ) 。 
Actor 是 小 型 的 、 自 包含 的 处 理 单元 ， 它 包含 自己 的 状态 ， 有 自己 的 行为 ， 还 包含 一 个 用 
来 与 其 他 Actor 通信 的 邮箱 (Mailbox) 系统 。Actor 解决 状态 问题 的 思路 是 不 共享 任何 可 
变 状态 ， 只 通过 不 可 变 的 消息 相互 通信 。Actor 之 间 的 通信 是 异步 的 ， 它 会 响应 收 到 的 消 
息 ， 执 行 指定 任务 。 
在 一 个 并 行 系统 中 ， 每 个 Actor 都 有 特定 的 任务 ， 它 们 构建 了 一 个 网 络 ， 这 样 就 从 底层 的 
并 发 模型 中 完全 和 剥离 出 来 了 。 
Actor 可 以 处 于 同一 个 进程 之 内 ， 不 过 这 并 不 是 必需 的 。 这 样 做 的 好 处 是 Actor 系统 可 以 
是 多 进程 的 ， 甚 至 可 以 跨 多 台 机 器 。 当 需要 一 定 程度 的 容错 能 力 时 ， 多 机 和 集群 使 得 基于 
Actor 的 系统 能 够 高 效 执行 。 为 了 确保 Actor 在 协作 环境 中 成 功 工作 ， 它 们 通常 有 一 个 快速 
失败 (fail-fast) 策略 。 
对 于 基于 JVM 的 语言 ，Akka 是 用 于 开发 基于 Actor 的 系统 的 一 个 流行 框架 。 该 框架 是 用 
Scala 编写 的 ， 但 是 也 提供 了 JavaAPI， 使 其 可 以 用 于 Java 和 其 他 JVM 语言 。 
Akka 和 基于 Actor 的 系统 的 动机 源 于 使 并 发 编程 变 得 困难 的 几 个 问题 。Akka 文档 强调 了 
考虑 使 用 Akka 而 不 是 传统 加 锁 机 制 的 3 个 核心 动机 : 

在 领域 模型 内 封装 可 变 状 态 非 常 坏 手 ， 尤 其 是 当 指 向 对 象 内 部 的 引用 可 以 在 不 受 控制 的 

情况 下 逃逸 时 ， 

用 锁 来 保护 状态 会 导致 吞吐 量 明显 降低 ，; 













































































。 锁 可 能 会 导致 死 锁 和 其 他 类 型 的 活跃 性 问题 。 

其 他 突出 的 问题 包括 难以 正确 地 使 用 共享 内 存 ， 以 及 强迫 多 个 CPU 共享 高 速 缓存 运行 而 
带 来 的 性 能 问题 。 

最 后 要 讨论 的 一 个 动机 与 传统 线程 模型 和 调用 栈 中 的 故障 有 关 。 底 层 的 线程 API 没有 处 理 
线程 失败 或 恢复 的 标准 方法 ， 而 Akka 对 此 进行 了 标准 化 ， 并 为 开发 人 员 提供 了 一 个 定义 
良好 的 恢复 机 制 。 

总 之 ，Actor 模型 是 开发 人 员 的 并 发 工具 箱 的 一 个 很 有 用 的 补充 。 然 而 ， 它 并 不 是 所 有 其 
他 技术 的 通用 替代 品 。 如 果 用 例 符合 Actor 风格 (异步 传递 不 可 变 的 消息 ， 没 有 共享 的 可 
变 状态 ， 每 个 消息 处 理 器 的 执行 都 有 时 间 限 制 )， 那 么 使 用 Actor 就 可 以 快速 见效 。 但 是 ， 
如 果 系 统 设计 包括 请 求 -响应 的 同步 处 理 、 共 享 可 变 状 态 或 无 约束 执行 ， 那 么 细心 的 开发 
人 员 可 能 会 选择 使 用 另 一 种 抽象 来 构建 自己 的 系统 。 


12.7 小 结 


对 于 希望 使 用 多 线程 来 改进 应 用 程序 性 能 之 前 应 该 考虑 哪些 主题 ， 本 章 只 触及 了 一 些 表面 
内 容 。 在 将 单线 程 应 用 程序 转变 为 并 发 设计 的 时 候 ， 应 该 : 
。 确保 能 够 准确 测量 线性 处 理 的 性 能 ; 
。 应 用 一 个 变化 ， 并 测试 性 能 是 否 真 的 得 到 了 提高 ; 
。 确保 性 能 测试 易于 重新 运行 ， 特 别 是 当 系统 处 理 的 数据 大 小 可 能 发 生变 化 时 。 
应 该 避免 以 下 诱惑 : 
。 到 处 使 用 并 行 流 ，; 
。 利用 手动 锁定 创建 复杂 的 数据 结构 ，; 
。 重新 发 明 java.util.concurrent 中 已 经 提供 的 结构 。 
应 该 致力 于 : 
。 使 用 并 发 集合 以 改进 多 线程 性 能 ， 
。 使 用 利用 了 底层 数据 结构 的 访问 设计 ， 
。 减少 跨 整 个 应 用 程序 的 锁 ， 
。 提供 恰当 的 任务 / 异步 抽象 ， 避 免 手 动 处 理 线 程 。 
进一步 说 ， 并 发 是 未 来 高 性 能 代码 的 关键 。 然 而 : 
。 共享 可 变 状态 非常 困难 ， 
。 要 正确 使 用 锁 很 有 挑战 ; 
同步 和 异步 的 状态 共享 模型 都 是 必需 的 ，; 
。 JMM 是 非常 底层 、 灵 活 的 模型 ， 
。 线程 抽象 是 非常 底层 的 。 
现代 并 发 的 趋势 是 向 更 高 层次 的 并 发 模型 发 展 ， 脱 离 越 来 越 像 “并 发 的 汇编 语言 ”的 线 
程 。 最 近 的 Java 版 本 增加 了 程序 员 可 用 的 、 更 高 级 别 的 类 和 库 。 总 之 ， 业 界 似 乎 正在 转向 
一 种 这 样 的 并 发 模型 : 为 了 安全 的 并 发 抽象 ， 更 多 的 责任 交 由 运行 时 和 库 来 管理 。 
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第 13 章 


剖析 








在 程序 员 群 体 中 ， 剂 析 (profiling) 这 个 术语 的 使 用 并 不 是 非常 统一 。 事 实 上 ， 可 能 的 剖 
析 方 法 有 很 多 种 ， 其 中 最 常见 的 有 以 下 两 种 : 

。 执行 

。 分 配 

本 章 将 洱 盖 这 两 个 主题 。 首 先 重点 关注 执行 剖析 ， 我 们 会 借 着 这 个 主题 来 介绍 可 用 于 齐 析 
程序 的 工具 。 之 后 会 介绍 内 存 剖 析 ， 看 一 看 各 种 工具 是 如 何 提供 这 种 能 力 的 。 


我 们 将 探讨 对 于 Java 开发 人 员 和 性 能 工程 师 而 言 ， 了 解剖 析 器 的 一 般 操 作 方 式 是 多 么 重 
要 。 因 为 剖析 器 有 可 能 扭曲 应 用 程序 的 行为 ， 并 表现 出 明显 的 偏差 。 

执行 剖析 是 性 能 剖析 的 领域 之 一 ， 在 这 个 领域 中 ， 这 些 偏差 就 会 凸显 出 来 。 谨 慎 的 性 能 工 
程 师 会 意识 到 这 种 可 能 性 ， 并 通过 各 种 方式 来 弥补 ， 包 括 使 用 多 种 工具 进行 剖析 ， 以 了 解 
真正 发 生 的 情况 。 


对 于 性 能 工程 师 而 言 ， 同 样 重要 的 是 要 解决 自己 的 认 知 偏差 ， 不 要 致力 于 挖 气 符 合 自己 预 
期 的 性 能 行为 。 在 第 4 章 中 遇 到 的 反 模 式 和 认 知 陷阱 就 是 我 们 训练 自己 避免 这 些 问题 的 一 
个 很 好 的 开始 。 


13.1 认识 剖析 


一 般 而 言 ，JVM 剖析 和 监控 工具 的 工作 原理 是 ， 使 用 某 个 底层 的 注入 (instrumentation ) 
机 制 ， 将 数据 发 送 给 图 形 控制 台 ， 或 将 其 保存 在 日 志 中 供 后 续 分 析 。 而 底层 的 注入 机 制 ， 
通常 采取 的 形式 又 不 外 乎 是 代理 在 程序 启动 时 加 载 ， 或 者 是 组 件 一 一 动态 连接 到 运行 
中 的 JVM。 
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我 们 在 2.7 节 曾 介绍 过 代理 。 它 们 是 一 种 非常 通用 的 技术 ， 广 泛 应 用 于 Java 
的 各 种 工具 中 。 








从 广义 上 说 ， 我 们 需要 区 分 监控 工具 〈 其 主要 目标 是 观测 系统 及 其 当前 状态 ) 、 警 报 系统 
(用 于 检测 异常 或 反常 行为 ) 和 剖析 器 (提供 关于 运行 中 应 用 程序 的 深层 信息 )。 虽 然 这 些 
工具 目标 不 同 ， 但 是 它们 通常 是 相关 的 。 一 个 和 运行 良好 的 生产 应 用 程序 可 能 会 用 到 所 有 这 
些 工 具 。 

然而 ， 本 章 的 重点 是 剖析 。( 执 行 ) 剖析 的 目的 是 找 出 用 户 编 写 的 代码 中 可 以 进行 重 构 和 
性 能 优化 的 部 分 。 


剖析 通常 是 通过 向 正在 执行 应 用 的 JVM 上 连接 一 个 自 定义 代理 来 实现 的 。 
































正如 3.6 节 所 讨论 的 ， 诊 断 和 纠正 性 能 问题 的 第 一 步 是 找 出 导致 出 现 问题 的 资源 。 这 一 步 
如 果 定 位 错 了 ， 就 会 付出 高 昂 的 成 本 。 

如 果 对 一 个 CPU 资源 并 没有 耗 尽 的 应 用 程序 进行 剖析 ， 那 么 我 们 很 容易 被 剖析 器 的 输出 
严重 误导 。 我 们 在 5.2 节 曾 引用 Brian Goetz 的 话 ， 这 里 可 以 拓展 一 下 ， 即 工具 总 是 会 给 出 
一 个 数 ， 只 是 不 清楚 这 个 数 与 所 要 解决 的 问题 是 否 相 关 。 正 因为 如 此 ， 我 们 在 4.5 节 曾 4 
绍 了 主要 的 偏差 类 型 ， 并 将 有 关 剖 析 技 术 的 讨论 推迟 到 现在 。 

一 个 好 的 程序 员 …… 仔细 观察 关键 代码 是 明智 之 举 ， 但 首先 要 找到 关键 代码 。 
一 一 Donald Knuth 


这 意味 着 在 进行 剖析 工作 之 前 ， 性 能 工程 师 应 该 已 经 找到 了 性 能 问题 。 不 仅 如 此 ， 他 们 
还 应 该 证 明确 实 是 应 用 程序 代码 的 问题 。 如 果 应 用 程序 在 用 户 模式 下 的 CPU 利用 率 接近 
100%， 那 他 们 就 会 知道 是 这 种 情况 。 

如 果 不 符合 这 些 标 准 ， 那 性 能 工程 师 应 该 从 其 他 地 方 寻 找 问题 的 根源 ， 而 不 是 试图 借助 执 
行 分 析 器 做 进一步 诊断 。 

即使 CPU 在 用 户 模 式 下 (不 是 内 核 时 间 ) 完全 耗 尽 ， 在 进行 剖析 之 前 也 必须 排除 另 一 个 
可 能 的 原因 ， 即 垃圾 收集 的 STW 阶段 。 因 为 所 有 重视 性 能 的 应 用 程序 都 应 该 通过 日 志 记 
录 垃 圾 收集 事件 ， 所 以 这 个 检查 很 简单 ， 也 就 是 查阅 该 机 器 的 垃圾 收集 日 志和 应 用 程序 日 
志 ， 确 保 垃 圾 收集 日 志 很 安静 ， 而 应 用 程序 日 志 在 活 动 。 如 果 垃 圾 收集 日 志 是 在 活动 的 那 
个 ， 那 么 下 一 步 应 该 是 先 对 垃圾 收集 进行 调 优 ， 而 不 是 直接 做 执行 剖析 。 


13.2 采样 与 安全 点 偏差 


执行 剖析 的 一 个 关键 方面 是 它 通 常 使 用 采样 来 获取 正在 运行 的 代码 的 数据 点 〈 栈 轨迹 )。 
毕 竞 ， 测 量 也 是 有 成 本 的 ， 所 以 为 了 防止 数据 收集 成 本 过 高 ， 通 常 不 会 跟踪 所 有 方法 的 进 
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入 和 退出 。 相 反 ， 我 们 会 记录 线程 执行 的 快照 ， 但 这 也 只 能 以 相对 较 低 的 频率 进行 ， 以 免 
产生 过 高 的 开销 。 
比如 ，New Relic 线程 剖析 器 (New Relic 技术 栈 提供 的 工具 之 一 ) 是 每 100 毫秒 采样 一 
次 。 这 个 限制 通常 被 认为 是 在 不 产生 过 高 开销 的 情况 下 ， 采 样 频率 的 最 佳 估计 值 。 
采样 间隔 代表 了 性 能 工程 师 的 一 个 权衡 。 采 样 大 频繁 ， 开 销 就 会 变 得 过 高 ， 特 别 是 对 于 一 
个 性 能 非常 重要 的 应 用 程序 来 说 。 相 反 ， 如 果 采 样 频 率 太 低 ， 那 错失 重要 行为 的 机 会 就 会 
很 大 ， 进 而 可 能 导致 采样 无 法 反映 应 用 程序 的 真实 性 能 。 

在 使 用 剖析 器 时 ， 它 应 该 获得 尽 可 能 多 的 细节 ， 以 免得 到 意外 的 结果 。 

















Kirk Pepperdine 

采样 不 仅 使 得 问题 有 可 能 被 隐藏 在 数据 中 ， 而 且 在 大 多 数 情况 下 ， 它 只 在 安全 点 执行 。 这 

就 是 所 谓 的 安全 点 偏差 ， 其 会 导致 以 下 两 个 后 果 。 

。 所 有 的 线程 都 必须 到 达 某 个 安全 点 才能 被 采样 。 

。 样本 只 能 是 应 用 程序 处 于 某 个 安全 点 的 状态 。 

其 中 第 一 个 后 果 是 从 正在 运行 的 进程 中 生成 剖析 样本 会 带 来 额外 的 开销 。 第 二 个 后 果 是 我 

们 知道 采样 的 是 处 于 某 个 安全 点 的 状态 ， 只 采样 这 样 的 点 会 扭曲 样本 点 的 分 布 。 

大 多 数 执行 剖析 器 使 用 来 自 HotSpot 的 C++ API 中 的 etcallTrace() 函数 来 收集 每 个 应 用 程 

序 线程 的 栈 样本 。 通 常 的 设计 是 在 代理 内 收集 样本 ， 然 后 记录 数据 或 执行 其 他 下 游 处 理 。 

然而 ，GetCallTrace() 的 开销 相当 大 。 因 为 如 果 有 NN 个 活动 的 应 用 程序 线程 ， 那 么 收集 一 

个 栈 样本 将 导致 JVM 进入 安全 点 NN 次 。 这 个 开销 也 是 设置 采样 频率 上 限 的 一 个 根本 原因 。 

因此 ， 细 心 的 性 能 工程 师 需 要 留意 应 用 程序 在 安全 点 上 花费 的 时 间 。 如 果 花 费时 间 太 多 ， 

那 应 用 程序 的 性 能 就 会 受到 影响 ， 进 而 导致 任何 调 优 工 作 都 可 能 是 在 不 准确 的 数据 上 进行 

的 。 我 们 可 以 用 一 个 JVM 标志 来 跟踪 安全 点 时 间 过 长 的 情况 : 
-XX:+PrintGCApplicationStoppedTime 

这 将 把 与 安全 点 时 间 相 关 的 额外 信息 写 入 垃圾 收集 日 志 中 。 一 些 工 具 (特别 是 jClarity 

Censum) 可 以 从 这 个 标志 产生 的 数据 中 自动 检测 出 问题 。Censum 还 可 以 区 分 安全 点 时 间 

和 操作 系统 内 核 导 致 的 暂停 时 间 。 

我 们 可 以 用 一 个 例子 ， 即 一 个 计数 循环 来 说 明 由 安全 点 偏差 造成 的 问题 。 这 是 一 个 简单 的 

循环 ， 类 似 于 以 下 的 代码 段 : 


for (int i = 0; i < LIMIT; i++) { 
// 循环 体 中 只 有 “简单 ”操作 














































































































在 这 个 例子 中 ， 我 们 特意 撤 开 了 “简单 ”操作 的 含义 ， 因 为 其 行为 取决 于 JIT 编译 器 所 能 
执行 的 具体 优化 ， 更 多 相关 细 方 参见 10.4 市 。 
简单 操作 的 例子 包括 基本 类 型 的 算术 运算 和 已 经 完全 内 联 的 方法 调用 (在 循环 体内 实际 上 
已 经 没有 方法 了 )。 











如 果 LIMIT 很 大 ， 那 么 JIT 编译 器 会 将 该 Java 代码 直接 翻译 为 等 价 的 编译 形式 ， 包 括 一 个 
向 后 的 分 支 回 到 循环 头 部 。 正 如 10.9 市 所 讨论 的 ，JIT 编译 器 会 在 循环 的 回 边 上 插入 安全 
点 检查 。 这 意味 着 对 于 一 个 很 大 的 循环 ， 每 次 循环 迁 代 都 有 一 次 进入 安全 点 的 机 会 。 
然而 如 果 LIMIT 足够 小 ， 那 这 种 情况 就 不 会 发 生 ， 相 反 JIT 编译 器 会 展开 人 循环。 这 意味 着 
对 于 执行 次 数 足 够 小 的 计数 循环 ， 线 程 直到 循环 结束 后 才 会 进入 安全 点 。 

因此 ， 只 在 安全 点 采样 会 直接 导致 这 样 一 种 行为 偏差 : 结果 对 于 循环 的 大 小 和 循环 中 执行 
的 操作 的 性 质 非常 敏感 。 

显然 这 不 利于 得 到 严谨 可 靠 的 性 能 结果 。 这 也 不 是 一 个 理论 上 的 问题 一 一 循环 展开 可 能 会 
产生 大 量 的 代码 ， 从 而 导致 长 长 的 代码 块 永远 不 会 被 采样 到 。 

我 们 还 将 回 到 安全 点 偏差 这 个 问题 上 ， 它 仍然 是 证 明 性 能 工程 师 需 要 意识 到 各 种 权衡 的 一 
个 很 好 的 例子 。 


13.3 面向 开发 人 员 的 执行 剖析 工具 


本 市 将 讨论 几 种 不 同 带 有 图 形 用 户 界面 的 执行 剖析 工具 。 市 面 上 这 类 工具 有 很 多 ， 所 以 我 
们 重点 选择 一 些 最 常见 的 进行 讨论 ， 不 做 详尽 调查 。 
























































13.3.1 VisualVM 齐 析 器 


让 我 们 将 VisualVM 作为 第 一 个 剖析 工具 的 例子 。 它 包括 执行 剖析 器 和 内 存 剖析 器 ， 非 常 
简单 而 且 免 费 。 不 过 它 的 局 限 性 也 很 大 ， 很 少 作 为 生产 工具 使 用 ， 但 对 于 想 了 解 其 应 用 程 
序 在 开发 和 测试 环境 中 行为 的 性 能 工程 师 来 说 ， 它 又 是 很 有 帮助 的 。 

13-1 显示 了 VisualVM 的 执行 剖析 视图 。 



































13-1: VisualVM 内 存 剖 析 器 
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这 里 演示 了 执行 方法 及 相关 CPU 消耗 情况 的 一 个 简单 视图 。 我 们 能 在 VisualVM 中 挖掘 的 
东西 相当 有 限 。 因 此 ， 大 多 数 性 能 工程 师 很 快 就 会 不 满足 于 它 了 ， 转 而 使 用 市 面 上 茶 个 更 
完整 的 工具 。 然 而 ， 对 于 刚 接触 剖析 亏 术 与 权衡 的 性 能 工程 师 而 言 ， 它 可 能 是 很 有 用 的 第 
= 个 于 上 其 


vo 














13.3.2 JProfiler 

一 个 流行 的 商用 编译 器 是 ej-technologies 有 限 责任 公司 开发 的 JProfiler。 这 是 一 个 基于 代 
理 的 剖析 器 ， 用 于 剖析 本 地 或 远程 的 应 用 程序 ， 既 能 以 GUI 工具 的 形式 运行 ， 也 能 以 
Headless 模式 运行 。 它 兼容 相当 广泛 的 操作 系统 ， 除 了 常见 的 Windows、macOS 和 Linux， 
还 兼容 FreeBSD、Solaris 和 AIX 等 系统 。 


这 个 桌面 应 用 程序 在 第 一 次 启动 时 会 显示 如 图 13-2 所 示 的 界面 。 














Quick start 
There are many things you can do with JProfiler. Choose below from a selection of common use 
Cases. 


中 Profile a demo session or a saved Session 


JProfiler comes with several pre-configured demo sessions. You can start them to explore 
JProfiler's features. 


中 Attach to a running JVM 


JProfiler can attach to JVMs running locally or remotely and profile them on the fly. Some features 
are not supported in attach mode. 


中 Profile an application server, locally or remotely 


JProfiler features extensive support for all major application servers. Both application servers 
running on this computer and on remote computers are supported. 


中 Open a snapshot 


JProfiler can save snapshots with all profiling results that can be opened later on. Also, it can open 
HPROF and PHD snapshots. 


Don't show this dialog again Cancel 











13-2: JProfiler 启动 向 导 


关闭 该 界面 后 ， 可 以 看 到 如 图 13-3 所 示 的 默认 界面 。 











忽 Heap walker 


| CPU views 


Threads 


ee 


国 "ee 


© JEE & Probes 丰 The connection to the profiled JVM was closed. Please restart the session. 


EH MBeans 


+ 





地 Detached 








13-3: JProfiler 启动 界面 


点 击 左 上 和 角 的 启动 中 心 (Start Center) 按钮 ， 可 以 看 到 很 多 选项 ， 包 括 打开 会 话 (Open 
Session) ， 这 里 包含 一 些 预先 封装 好 的 示例 供用 户 使 用 ， 接 下 来 就 是 快速 附加 〈Quick 
Attach) 。 图 13-4 演示 了 快速 附加 选项 ， 这 里 选择 剖析 AsciidocFX 应 用 程序 ， 它 是 一 个 创 
作 工 具 ， 本 书 的 很 多 内 容 就 是 用 该 工具 编写 的 。 
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Start Center 


Open Session SEAG New Session Open Snapshots 


e On this computer On another computer 


Displayed HotSpot JVMs: Alldetected JVMs 


ID 全 Process Name 


99495 AsciidocFX.app 


Legend: == Profiling agent loaded es JProfiler CUI connected ss Offline mode 
Qr Filter 


Help Close 【?) Heap Dump Only Start 








13-4: JProfiler 快速 附加 界面 


附加 到 目标 JVM 会 打开 一 个 配置 对 话 框 ， 如 图 13-5 所 示 。 请 注意 ， 这 款 剖 析 器 在 工具 的 
配置 中 已 经 就 性 能 权衡 、 需 要 的 有 效 过 滤器 和 考虑 剖析 的 开销 给 出 了 警告 。 正 如 本 章 前 面 
所 讨论 的 ， 执 行 剖 析 在 很 大 程度 上 并 不 是 灵丹妙药 ， 工 程 师 必 须 小 心 行事 以 避免 混淆 。 























Settings 


Profiling settings: Template: Sampling for CPU profiling, some features not Supporter Edit 
0 For all features, such as invocation counts and accurate allocation stack traces, switch 
to instrumentation. 
Filter settings: 1 filter rule for method call recording Edit 
0 After you get an idea where the performance problem is located, it is recommended 
to select profiled packages. 
Trigger settings: No active triggers Edit 
Database settings: 5 enabled databases Edit 
Probe settings: 10 enabled built-in probes Edit 


Attach Options 


Record array allocations (not recommended) 


If this option is selected, many classes have to be instrumented which creates a considerable overhead and might fail, 
depending on the PermCen space size of the garbage collector. 


Startup And Exit 





Initial recording profile: [no recordings] ee Configure 

JVM exit action: Let the JVM exit and disconnect 3 Morev 
Performance 

Overhead: ® mm mm 


The overhead is composed of the selected profiling settings and the selected recording profile. 


Help Cancel 
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在 进行 完 初 始 扫描 之 后 ，JProfiler 就 正式 启动 了 。 初 始 界面 会 显示 一 个 类 似 于 VisualVM 的 
遥测 视图 ， 但 这 里 可 以 滚动 显示 ， 而 不 是 基于 时 间 的 变化 调整 视图 ， 如 图 13-6 所 示 。 
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Local attach - Jprofiler 10.0.3 


加 才 国 让 全 镶 书 人 名 本国 十 页 





Center Detach Snapshot 六 Recordings Ri Trackng Moc ne Eport settings Wt ee We 
Session Profiling View specific 
图 Telemetries ds ， 二 
Overview 
Memory 
Memory 
Recorded Objects 
Recorded Throughput 
GC Activity 
Classes CC Activity 
Threads 
CPU Load 


Custom Telemetries 


着 memon 
| Heap walker 
EE CPU views 
茵 ed 

岛 Monitors & locks 
E | Databases 
@ teers 


Classes 


CPU Load 





























让 
省 MBeans 
Row height “一 一 一 po 二 | 
TT @ Oactiverecordings ©) Auto-update2s VM#1 06:04 @ Profiling 
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从 这 个 界面 可 以 访问 所 有 的 基本 视图 ， 但 是 如 果 不 打 开 某 些 录制 ， 能 看 到 的 不 多 。 要 查看 
方法 计时 ， 可 以 选择 调用 树 (call tree) 视图 ， 然 后 点 击 按钮 开始 录制 。 几 秒 后 ， 剂 析 的 结 
果 将 开始 显示 出 来 ， 效 果 类 似 图 13-7。 








古旧 让 久 彤 证 Oh tOT OO < 


sart Save Session Start Slop Stat View Reveal ow op Show 
ae | open aide | Teme ‘Help: Ledena CPU 区 
session Profling View specific 
All thr jr v bp Methor ~ 
辐 i Thread selection: ”名 All thread groups Aggregation level: 加 Methods 
Thread status: ms Runnable Y Viewmode: 三 Tree ~ 
Fr Live memory » We 36.8% - 1,296 ms java.uti.concurrent.ForkjoinWorkerThread.run 


> 四 四 31.5% - 1,111 ms com.sun.glass.ui.InvokeLaterDispatcher$Future.run 


» 加，6.9% - 244 ms java.lang.Thread.run 

| Heap walker » O14.9%- 171 ms HTTP: /afx/resource/Users/boxcat/projects/books/optimizing-java/images/optyava_FIG14_03_jprofiler_splash.png 
> @14.5% - 158 ms HTTP: /afx/worker/js/resource.afx 

>» O14.3%- 151 ms org.xnio.nio.WorkerThread.run 


| | CpU views » @'2.9%- 101 ms HTTP: /afx/resource/Users/boxcat/projects/books/optimizing-java/images/optjava_FIG14_06_jprofiler_splash.png 
> @12.8% - 99,113 hs HTTP: /afx/resource/Users/boxcat/projects/books/optimizing-java/images/optjava_FIG14_05_jprofier_splash.png 
> @12.7%- 94,646 hs HTTP: /afx/resource/Users/boxcat/projects/books/optimizing-java/Images/opyjava_FIG14_04_jprofiler_splash.png 
CallTree > @ 1.0%- 33,829 bs HTTP: /afx/resource/Users/boxcat/projects/books/optimizing-java/images/optjava_FIG14_07_jprofiler_splash.png 
> @ 0.7% - 24,689 bs HTTP: /afx/resource/Users/boxcat/projects/books/optimizing-java/images/optjava_FIG14_01_visualvm_mem.png 
Hot Spots > @ 0.5%- 17,310 hs HTTP: /afx/resource/Users/boxcat/projects/books/optimizing-java/images/optjava_FIG14_02_jprofiler_splash.png 
Call Graph 中 8 0.3% - 11,710 hs com.sun.glass.ul.View.notifyKey 


0.2% - 6,171 hs com.sun.glass.uLWindow.notifyFocus 
mi ct call hethods of unprofiled classe 





Method Statistics 
Complexity Analysis 
Call Tracer 


JavaScript XHR 


Threads 

a Monitors & locks 
| Databases 
© JEE & Probes 
声 MBeans 


Q Call Tree View Filters -© 


Th @ 1activerecording CD Auto-update 5s WM#1 15:49 @ Profiling 
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这 个 树 状 视图 可 以 展开 ， 显示 每 个 方法 调用 的 所 有 方法 的 内 部 时 间 。 
要 使 用 JProfiler 代理 ， 请 将 如 下 开关 添加 到 运行 配置 中 : 


-agentpath:<path-to-agent-lib> 


在 默认 配置 下 ， 这 会 引起 被 剖析 的 应 用 程序 在 启动 时 停顿 ， 等 待 一 个 GUI 来 连接 。 这 样 做 
的 目的 是 将 对 总 用 类 的 注 和 前 轩 到 启动 时 ， 之 后 应 用 程序 就 可 以 正常 运行 了 。 


对 于 生产 应 用 程序 ， 再 附加 一 个 JProfiler GUI 就 不 太 正常 了 。 此 时 ， 需 要 添加 的 是 
JProfiler 代理 ， 并 通过 配置 说 明 要 记录 哪些 数据 。 这 些 结果 仅 保存 到 快照 文件 里 ， 之 后 再 
加 载 到 JProfiler GUI 中 。JProfiler 提供 了 一 个 向 导 ， 用 于 配置 远程 剖析 ， 以 及 将 适当 的 配 
置 添加 到 远程 的 JVM 中 。 


最 后 ， 细 心 的 读者 应 该 会 注意 到 ， 截 图 中 演示 的 是 对 一 个 GUI 应 用 程序 的 剖析 ， 它 不 是 
CPU 密集 型 的 ， 所 以 结果 仅 用 于 演示 。CPU 的 利用 率 远 没有 达到 100%， 因 此 这 并 不 是 
JProfiler 或 任何 其 他 剖析 工具 的 现实 用 例 。 





























13.3.3 YourKit 


YourKit 训 析 器 是 另 一 款 商 用 剖析 器 ， 由 YourKit 有 限 责 任 公司 开发 。YourKit 工具 在 某 些 
方面 和 JProfiler 类 似 ， 提 供 了 一 个 GUI 组 件 和 一 个 代理 ， 既 可 以 动态 附加 ， 也 可 以 通过 配 
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置 在 应 用 程序 启动 时 运行 。 

要 部 署 其 代理 ， 使 用 如 下 语法 (64 位 Linux) : 
-agentpath:<profiler-dir>/bin/linux-x86-64/libyjpagent.so 

从 GUI 的 角度 看 ， 它 的 设置 和 初始 遥测 界面 非常 类 似 于 VisualVM 和 JProfiler 中 的 。 


在 图 13-8 中 可 以 看 到 CPU 快照 视图 ， 从 中 可 以 深 控 出 CPU 时 间 的 使 用 情况 ， 其 细节 程度 
可 能 是 VisualVM 所 达 不 到 的 。 




















让 闻 多 司 恒 WF 辣 首 外 条 壕 I1 CC 























号 ，Localapplication "Main" (PID 38953) is being profiled at port 10001. 十 Some profiling capabilities are not available in attach mode 
- 全 = 国 Threads 全 Deadlocks 只 Memory 剖 MonitorUsage 多 Exceptions 给 PerformanceCharts 人 @Events 国 Summary 
| | | CPUpron = his iveview provides only basic information. To perform comprehensive analysis, capture snapshot: 国 ] 
夺 ET 
La Call Tree | > Time (ms) 
Method list s9.227 EER 
CPU usage telemetry s9,227 EE 
Watcher.runO 59,195 医 Z 
me] javalang Thread.sleepllong) 59191 医 2 
< > sunniofs.UnixDirectoryStreamSUnixDirectorylterator hasNext0 2 0 
日 中 < .> java.nio.file.Files.newDirectoryStream(Path, String) 2 0% 
alkin.Main$$Lambda$ 1.runO 31 05 
Ty in.lambda$ main$O(Greymalkin) 了 oO% 
MM greymalkin.Greymalkin.runO 31 5 
64 ¥ greymalkin.Greymalkin.processClass(String) 23 oO% 
ng.ClassLoader.loadClass(String) -Wr 
¥ com.r3cev.WhitelistClassLoader.findClass(String) 23 oO% 
¥ com.r3cev.WhitelistClassLoader.scanO 23 5 
< > org.objectweb.asm.ClassReader.accept(ClassVisitor, int) 23 oO% 


itors.,WhitelistCheckingMethodVisitor.visitMethodinsn(int, String, String, String, boolean) 23 1 
v3.44 YM com.r3cev.CandidacyStatus.putIfAbsent(String) 23 0% 


gback.classic.Logger.info(String) 7 0% 
java.util.concurrent.LinkedBlockingQueue.poll(long, TimeUnit) 04 0 


@ Solution of performance problems © Connecting to profiled applications © Call tree 
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在 测试 中 ，YourKit 的 附加 模式 偶尔 会 出 现 些小 问题 ， 比 如 把 GUI 应 用 程序 卡 住 了 。 不 过 
总 的 来 说 ，YourKit 的 执行 剖析 功能 大 至 上 和 JProfiler 处 于 同等 水 平 ， 有 些 工 程 师 可 能 会 出 
于 个 人 偏好 更 喜欢 其 中 的 某 一 款 。 


如 果 可 能 的 话 ， 可 以 使 用 YourKit 和 JProfiler 这 两 款 工 具 进 行 剖析 (不 能 同时 进行 ， 因 为 
这 会 带 来 额外 的 开销 )， 因 为 通过 它们 可 能 有 不 同 的 发 现 ， 这 对 诊断 是 有 帮助 的 。 

由 于 这 两 种 工具 都 使 用 了 前 面 讨论 过 的 安全 点 采样 方法 ， 因 此 它们 可 能 都 存在 由 该 方法 引 
入 的 同样 的 局 限 性 和 偏差 。 


























13.3.4 Java Flight Recorder 和 Java Mission Control 

Java Flight Recorder (JFR) 和 Java Mission Control (JMC) 工具 是 Oracle 收购 BEA System 
而 获得 的 剖析 和 监控 技术 。 它 们 之 前 是 用 于 BEA 的 耻 ockit JVM 的 工具 产品 的 一 部 分 。 在 
JRockit 退出 市 场 的 过 程 中 ， 这 些 工具 被 移植 到 了 Oracle JDK 的 商业 版 本 中 。 











在 Java 8 之 前 ，Flight Recorder 和 Mission Control 都 是 商用 的 专 有 工具 。 它 们 仅 为 Oracle 
JVM 提供 ， 不 能 与 OpenJDK 构建 版 本 或 任何 其 他 JVM 配合 使 用 。 

因为 JFR 仅 为 Oracle JDK 提供 ， 所 以 在 启动 带 有 Flight Recorder 的 Oracle JVM 时 ， 必 须 
传 入 如 下 开关 : 


-XX:+UnlockCommercialFeatures -XX:+FlightRecorder 


2017 年 9 月 ，Oracle 宣布 对 Java 的 发 布 时 间 表 进行 重大 调整 ， 将 其 从 两 年 的 发 布 周期 改 
为 6 个 月 。 这 是 由 于 前 两 个 版 本 (Java 8 和 Java 9) 严重 延期 而 导致 的 。 


除了 决定 改变 发 布 周期 外 ，Oracle 还 宣布 ， 在 Java 9 之 后 ， 其 发 布 的 主要 JDK 将 变 为 
OpenJDK， 而 不 是 Oracle JDK。 作 为 这 一 变化 的 一 部 分 ，Flight Recorder 和 Mission Control 
会 成 为 可 以 免费 使 用 的 开源 工具 。 


在 编写 本 书 时 ，JFR/JMC 成 为 免费 和 开源 特性 的 详细 路 线 图 尚未 公布 。 对 于 Java 8 和 Java 9 
的 部 署 ， 如 果 要 在 产品 中 使 用 JFR/IJMC， 那 么 是 否 需 要 付费 ， 也 没有 公布 。 


JMC 的 初始 安装 包括 一 个 JMX 控制 台 和 JFR， 不 过 在 Mission Control 内 安 
装 更 多 插件 也 非常 容易 。 



























































JMC 是 图 形 组 件 ， 从 jnc 二 进 制 文件 SJAVA HOME/bin 中 启动 。Mission Control 的 启动 界 
看 如 图 13-9 所 示 。 


























13-9: JMC 启动 界面 
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要 进行 剖析 ， 必 须 在 目标 应 用 程序 上 启动 Flight Recorder。 你 可 以 在 启动 时 使 用 相关 标志 
或 在 应 用 程序 启动 后 通过 动态 附加 来 实现 这 一 点 。 


连接 后 ， 输 入 录制 会 话 和 齐 析 事件 的 配置 ， 如 图 13-10 和 图 13-11 所 示 。 

















Start Flight Recording 





Start Flight Recording se » 
Edit recording settings and then click Finish to start the flight recording. 区 人 
Filename: flight_recording_180144greymalkinMain47117.jfr Browse... 
Name: My Recording 


) Time fixed recording 


Recording time: 


。) Continuous recording 


Maximum size: 


Maximum age: 1h 





Event settings: Profiling - on server 0 | Template Manager 


Description: 


Low overhead configuration for profiling, typically around 2 % overhead. 


Note: Continuous recordings will need to be dumped to access the data. Right-click on the 


Tip: See the Recording Wizard Help for more information. 





Next > Cancel Finish 
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Event Options for Profiling 


Change the event options for the flight recording. 














Oracle JDK 
Garbage Collector: Normal SS 
Compiler: Detailed 人 
Method Sampling: _Maximum 他 
Thread Dump: Every 60 s 
Exceptions: Errors Only oS 
Synchronization Threshold: 10 ms 
File I/O Threshold: 10 ms 
Socket I/O Threshold: 10 ms 
_ | Heap Statistics 

Class Loading 
V| Allocation Profiling 

< Back Next > Cancel Finish 
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当 录 制 启动 时 ， 通 常会 显示 在 一 个 时 间 窗 口中 ， 如 图 13-12 所 示 。 














© 日 gm tight recording 180144greymalkinMain47117jfr ?3 (= 





SS Overview 


医 nn 


GC pause Time 


i dh . .A 
No Events in Recording Avg29.6% Max53.6% No Events in Recording 
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i 
证 
i 


提 
EE 


ean Se 
W pm Flight Record 
5 及 [1.8.0144] or gradle launcher daemon.bootstraf 


CpU Usage | Heap Usage 
CPU Usage @ 
万 国 Machine Total 局 国 JVM + Application (User) 7 国 JVM + Application (Kernel) 


四 


的 : 话 [ 欧 :多 | 








1 
各 人 
141545 141552 141559 141606 143623 141620 141627 141634 1416:41 
General @ 


JVM Start Time 10109117 14:12:52.757 
JVM Version Java HotSpot(TM) 64-Bit Server VM (25.144-b01) for bsd-amd64 JRE (1.8.0-144-b01), built on Jul 21 2017 22:07:42 by "java_re" with gcc 4.2.1 (Based on Apple lt 





Eoveview 吏 JVM Information 字 System Properties | 区 Recording 
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为 了 支持 将 JFR 从 耻 ockit 移植 过 来 ，HotSpot 虚拟 机 中 加 入 了 大 量 的 性 能 计数 器 ， 它 们 与 
Serviceability Agent 中 收集 的 那些 类 似 。 


13.3.5” 运 维 工 具 


就 其 本 质 而 言 ， 剖 析 器 是 供 开 发 人 员 使 用 的 工具 ， 用 于 在 底层 诊断 问题 或 了 解 应 用 程序 的 
运行 时 行为 。 在 工具 谱 的 另 一 端 是 运 维 监控 工具 ， 它 们 帮助 团队 以 可 视 化 的 方式 显示 系统 
的 当前 状态 ， 并 确定 系统 的 运行 正常 与 否 。 

这 是 一 个 复杂 的 问题 ， 本 书 不 会 对 其 进行 完整 的 讨论 。 相 反 ， 我 们 会 简要 介绍 这 个 领域 中 
的 3 个 工具 ， 其 中 两 个 是 专 有 的 ， 一 个 是 开源 的 。 

1. Red Hat Thermostat 

Thermostat 是 Red Hat 针对 基于 HotSpot 的 JVM 的 开源 的 服务 能 力 和 监控 的 解决 方案 。 它 
与 OpenJDK 本 身 使 用 相同 的 许可 证 ， 并 提供 了 针对 单机 和 集群 的 监控 。 它 使 用 MongoDB 
来 存储 历史 数据 以 及 时 间 点 (point-in-time) 功能 。 

Thermostat 被 设计 为 一 个 开放 的 、 可 扩展 的 平台 ， 由 代理 和 客户 端 (通常 是 一 个 简单 的 
GUI) 组 成 。 图 13-13 是 一 个 简单 的 Thermostat 视图 。 
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wm: /usr/lib64/ectipse//plugins/org .ectpse.equinox launcher_1.3.100.v20160416-2200 jar, pid: 6244, host: localhost localdomain 

















Thread Count | Timeline 


Thermostat = 区 演 
File Edit View Help 
Q « | Overview cpu | Profiler | ee | NUMA 
| Classes Memory | HeapAnatyzer | Threads | Notifications | Notes 
Thread Control Panel 








[i 





PP | | 





























三 NEW 图 RUNNABLE 图 BLOCKED 国 WAITING 图 TIMED_WAITING 周 TERMINATED 
Table | Detats | Deadiock Detedion | 
Name | 一 | Frst Sampled |LastSampled |Wait.. Block.. |Run..| Wai.| Slee..| Mo | 
JMX server comn.. .. WedJun1512:. WedJun1512:.. 1298 1297 .50 .40 99. .00 
RMITCP Accept-0 .. WedjJun1512:.. WedJun1512:. 0 0 10.. 00 .00 .00 1 
Start Levet Equl.。 .. WedJun1512:.. Wedjun1512:.. 29 28 .00 10.. .00 .00 
4 0 .00 .00 10.. .00 
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Thermostat 的 架构 支持 扩展 ， 比 如 你 可 以 : 


。 收集 和 分 析 自 定义 的 指标 ; 


。 按 需 注入 定制 代码 ， 


。 编写 自 定义 插件 和 集成 工具 。 
Thermostat 的 大 部 分 内 置 功能 实际 上 就 是 以 插件 形式 实现 的 。 


2. New Relic 


New Relic 工具 是 为 基于 云 的 应 用 设计 的 一 款 SaaS 产品 。 


持 JVM。 


在 JVM 的 支持 方面 ， 安 装 时 需要 下 载 代理 ， 向 JVM 传递 
这 个 步骤 ，New Relic 会 生成 与 





图 13-14 类 似 的 视 


它 是 通用 的 工具 集 ， 不 仅仅 支 








图 。 


个 开关 ， 并 重启 服务 器 。 按 照 
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ee APPSERVER WBROWSER APPSERVER WW BROWSER 
300 ms L 
| Oveview 
08 | J 
Service maps 
App map 06 
Transactions 2 
Databases 
External services 
Throughput 69.9 rm 
JVMs AVERAGE 
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New Relic 提供 的 通用 监控 和 全 栈 支 持 使 其 成 为 一 个 很 有 吸引 力 的 运 维 和 DevOps 工具 。 然 
而 ， 作 为 一 个 通用 工具 ， 它 并 没有 特别 关注 JVM 技术 ， 而 是 依赖 于 由 JVM 直接 提供 的 不 
那么 精细 的 数据 。 这 意味 着 对 于 JVM 的 深层 信息 ， 它 可 能 需要 与 更 专用 的 工具 结合 。 


New Relic 提供 了 一 个 Java 代理 API， 或 者 用 户 可 以 实现 自 定义 注入 来 扩展 其 基础 功能 。 


它 还 存在 产生 的 数据 量 特 别 大 这 一 问题 ， 所 以 有 时 候 除 了 输出 明显 增加 这 个 趋势 外 ， 很 难 
再 发 现任 何其 他 东西 。 


3. jClarity llluminate 

jClarity Tlluminate 在 开发 人 员 训 析 工具 和 运 维 监控 工具 之 间 提 供 了 一 个 桥梁 。 这 不 是 一 个 
传统 的 采样 剖析 器 ， 相 反 ， 它 以 监控 模式 运行 ， 通 过 进程 之 外 的 一 个 单独 的 守护 线程 来 观 
察 主 Java 应 用 程序 。 如 果 Hiuminate 监测 到 运行 中 的 JVM 的 行为 异常 ， 比 如 违反 了 服务 等 
级 协议 (SLA)， 就 将 启动 对 应 用 程序 的 深度 监测 。 


Tlluminate 的 机 器 学 习 算 法 会 分 析 从 操作 系统 、 垃 圾 收集 日 志和 JVM 收集 到 的 数据 ， 从 而 
确定 出 现 性 能 问题 的 根本 原因 。 它 会 生成 一 份 详细 的 报告 ， 并 将 其 发 送 给 用 户 ， 同 时 附 上 
一 些 可 能 解决 问题 的 下 一 步 方法 。 机 器 学 习 算法 基于 性 能 诊断 模型 (performance diagnostic 
model，PDM) ， 该 模型 最 初 由 jClarity 的 创始 人 之 一 Kirk Pepperdine 创建 。 
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在 图 13-15 中 ， 可 以 看 到 Illuminate 在 调查 自动 发 现 的 问题 时 的 分 流 模式 (triage mode ) 。 

















D sever-adminjclarity.com:900 x Ds 





Secure https://dijkstr 





jClarity illuminate © 


Showing Datn: <> From 210320181200 | 曾 To: 22032018120 。 面 


Location Diagnosis 





oume 


Dawroe 


四 田 国 风 且 多 则 网 如 < 于 














13-15:; jClarity llluminate 


该 工具 基于 机 器 学 习 技 术 ， 专 注 于 深入 地 分 析 根本 原因 ， 不 像 其 他 监控 工具 那样 有 时 还 会 
遇 到 “数据 墙 " 。 它 还 大 幅 减少 了 需要 收集 、 在 网 络 上 移动 和 存储 的 数据 量 ， 和 希望 与 其 他 
性 能 监控 工具 相 比 ， 它 能 减少 对 应 用 程序 的 影响 。 


13.4 现代 剖析 器 


本 市 将 讨论 3 个 现代 的 开源 工具 ， 与 传统 剖析 器 相 比 ， 它 们 可 以 提供 更 好 的 分 析 和 更 准确 
的 性 能 数据 。 这 些 工具 是 : 


。 Honest Profiler 








。 perf 

。 Async Profiler 

Honest Profiler 是 一 个 相对 较 新 的 剖析 工具 。 它 是 由 Richard Warburton 领导 的 开源 项 目 ， 
源 于 Google 工程 团队 的 Jeremy Manson 编写 并 开源 的 原型 代码 。 

Honest Profiler 的 主要 目标 如 下 : 

。 去 除 大 多 数 其 他 剖析 器 存在 的 安全 点 偏差 ; 

。 显著 降低 自身 的 运行 开销 。 

为 了 实现 这 一 点 ， 它 使 用 了 HotSpot 中 的 一 个 叫 作 AsyncGetCallTrace 的 私有 API。 当 然 ， 


这 也 就 意味 着 Honest Profiler 不 能 在 HotSpot 之 外 的 其 他 JVM 上 运行 ， 但 可 以 在 Oracle、 
Red Hat 和 Azul Zulu JVM 等 基于 HotSpot 构建 的 JVM 上 运行 。 
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该 实现 使 用 Unix 操作 系统 信号 SIGPROF 来 中 断 正在 运行 的 线程 。 然 后 可 以 通过 私有 的 
AsyncGetCaLLTrace( ) 方法 收集 调用 栈 信息 。 

它 只 会 单独 中 断 线 程 ， 所 以 永远 不 会 有 任何 形式 的 全 局 同步 事件 ， 进 而 也 就 避免 了 传统 剖 
析 器 中 常见 的 争 用 和 开销 。 在 异步 回调 中 ， 调 用 轨迹 (call trace) 被 写 入 一 个 无 锁 的 环形 
缓冲 区 (ring buffer) 。 然 后 ， 会 有 一 个 专门 的 独立 线程 在 不 暂停 应 用 程序 的 情况 下 将 详细 
信息 写 入 日志。 


Honest Profiler 并 不 是 唯一 采用 这 种 方法 的 剖析 器 。Flight Recorder 也 使 用 了 
AsyncGetCallTrace() 调用 。 


























历史 上 ，Sun Microsystems 公司 还 提供 了 比较 陈旧 的 Solaris Studio 产品 ， 它 也 使 用 了 私有 
API 调用 。 遗 憾 的 是 ， 该 产品 的 名 称 令 人 相当 困惑 ， 因 为 它 实 际 上 也 能 在 其 他 操作 系统 上 
运行 ， 而 不 仅仅 是 Solaris， 所 以 它 未 能 得 到 应 用 。 

Honest Profiler 有 个 缺点 ， 即 在 某 些 线程 上 面 ， 它 可 能 会 显示 “Unknown ”。 这 是 JVM 内 部 
国 数 的 副作用 ， 在 这 种 情况 下 ， 齐 析 器 无 法 映射 回 真正 的 Java 栈 轨迹 。 

要 使 用 Honest Profiler， 必 须 安装 该 剖析 器 的 代理 : 

-agentpath:<path-to-LibLagent.so>=intervaL=<n>,LogPath=<path-to-Log.hpL> 
Honest Profiler 包含 一 个 用 来 使 用 剖析 器 的 相当 简单 的 GUI。 它 基于 JavaFX， 所 以 如 果 需 


要 在 基于 OpenJDK 的 构建 版 本 (比如 Azul Zulu 或 Red Hat IcedTea) 上 运行 ， 就 应 该 安装 
OpenJFX。 


图 13-16 是 一 个 典型 的 Honest Profiler GUI 界面 。 




































































13-16: Honest Profiler 
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在 实践 中 ， 像 Honest Profiler 这 样 的 工具 更 多 是 作为 数据 收集 工具 以 Headless 模式 运行 。 
如 果 这 样 使 用 ， 可 视 化 则 由 其 他 工具 或 自 定 义 脚本 来 提供 。 
该 项 目 确 实 提 供 了 二 进 制 文件 ， 但 使 用 范围 相当 有 限 ， 仅 适用 于 最 新 的 Linux 构建 版 本 。 
大 多 数 严谨 的 Honest Profiler 用 户 需要 从 零 开始 构建 自己 的 二 进 制 文件 ， 不 过 这 个 话题 超 
出 了 本 书 的 讨论 范围 。 
perf 工具 是 一 个 有 用 的 轻 量 级 剖析 解决 方案 ， 适 用 于 运行 在 Linux 上 的 应 用 程序 。 它 不 是 
专用 于 Java/JVM 应 用 程序 的 ， 其 原理 是 读 取 硬件 性 能 计数 器 ， 它 包含 在 Linux 内 核 中 ， 
位 于 tools/perf 下 。 
性 能 计数 器 是 物理 寄存 器 ， 可 以 计算 性 能 分 析 人 员 感 兴趣 的 硬件 事件 的 数目 。 这 些 事件 包括 
执行 的 指令 、 高 速 缓存 未 命中 和 分 支 预测 错误 ， 它 们 构成 了 对 应 用 程序 进行 剖析 的 基础 。 
由 于 Java 运行 时 环境 的 动态 特性 ， 使 得 Java 给 perf 带 来 了 一 些 额 外 的 挑战 。 为 了 在 Java 
应 用 程序 中 使 用 perf， 我 们 需要 一 个 桥梁 来 处 理 Java 执行 的 动态 部 分 的 映射 。 
这 个 桥梁 就 是 perf-map-agent， 它 是 一 个 代理 ， 可 以 为 来 自 未 知 内 存 区 域 (包括 JIT 编译 的 
方法 ) 的 信息 生成 动态 符号 。 由 于 HotSpot 有 动态 创建 的 解释 器 和 用 于 虚拟 分 派 的 跳 转 表 ， 
因此 这 些 也 必须 有 生成 的 条 目 来 映射 。 
perf-map-agent 由 用 C 语言 编写 的 代理 和 小 的 Java 引导 程序 组 成 ， 如 果 需 要 的 话 ， 那 这 个 
代理 可 以 附加 到 一 个 正在 运行 的 Java 进程 中 。Java 8u60 中 有 一 个 新 的 标志 ， 支 持 与 perf 
进行 更 好 的 交互 : 

-XX:+PreserveFramePointer 


当 使 用 perf 来 剖析 Java 应 用 程序 时 ， 强 烈 建议 在 8u60 或 更 高 版 本 上 运行 ， 以 访问 该 标志 。 


因为 使 用 这 个 标志 会 禁用 JIT 编译 器 优化 ， 所 以 它 确实 会 稍微 降低 性 能 (在 
测试 中 最 多 降低 3%)。 















































































































































火焰 图 (flame graph) 用 可 视 化 的 方式 将 perf 生成 的 数据 醒目 地 显示 出 来 。 对 于 执行 时 间 
到 底 花 在 了 哪里 ， 火 焰 图 显示 了 非常 详细 的 分 类 ， 示 例如 图 13-17 所 示 。 
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CPU 混合 模式 火焰 图 : 绿色 表示 Java， 黄 色 表 示 C++， 红 色 表 示 系 统 ， 














13-17: Java 火焰 图 
Netflix 技术 博客 上 有 一 些 文章 详细 介绍 了 他 们 团队 是 如 何在 自己 的 JVM 上 实现 火焰 图 的 。 


最 后 ， 可 以 禁 代 Honest Profiler 的 另 一 个 选择 是 Async Profiler。 它 使 用 了 与 Honest Profiler 
同样 的 内 部 API， 这 是 一 个 只 运行 在 HotSpot JVM 上 的 开源 工具 。 它 依赖 于 perf， 这 意味 
着 Async Profiler 也 只 能 运行 在 支持 perf 的 操作 系统 上 (主要 是 Linux)。 


13.5 ”分配 剖析 器 


执行 剖析 是 剖析 的 一 个 重要 方面 ， 但 并 不 是 唯一 的 方面 ! 大 多 数 应 用 程序 也 需要 某 种 程度 
的 内 存 剖析 ， 考 虑 应 用 程序 的 分 配 行为 就 是 一 个 标准 的 方法 。 分 配 剖 析 有 几 种 可 能 的 方法 。 























注 1: 本 书 彩 图 可 到 图 灵 社 区 本 书 主页 (ituring.cn/book/2085)“ 随 书 下 载 ” 处 查看 。 一 一 编者 注 
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比如 ， 可 以 使 用 HeapVisitor 方法 ， 像 jmap 等 工具 就 依赖 于 它 。 在 


VisualVM 的 内 存 剖 析 视 图 ， 它 就 使 用 了 这 种 简单 的 方法 。 


图 13-18 中 可 以 看 到 
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图 13-18，VisualVM 内 存 剖 析 器 


图 13-19 显示 了 类 似 的 视图 ， 其 中 我 们 使 用 YourKit 分 配 痢 析 器 展示 了 同样 的 功能 。 
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图 13-19: YourKit 内 存 剖析 器 
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对 于 JMC 工具 来 说 ， 垃 圾 收集 统计 信息 中 包含 了 传统 的 Serviceability Agent 中 设 有 的 一 些 
值 ， 不 过 所 显示 的 绝 大 多 数 计数 器 在 两 者 中 存在 。 其 优势 在 于 JFR 收集 这 些 值 的 成 本 ， 所 
以 在 JMC 中 显示 要 比 在 SA 中 显示 代价 更 小 。 在 如 何 显 示 细 市 方面 ，JMC 显示 也 为 性 能 
工程 师 提 供 了 更 大 的 灵活 性 。 

分 配 剖析 的 另 一 种 方法 是 基于 代理 进行 剖析 ， 它 可 以 通过 几 种 方式 来 完成 ， 其 中 最 简单 的 


一 种 是 对 字 节 码 进行 注入 。 正 如 在 9.1.1 市 所 看 到 的 ， 指 示 JVM 分 配 内 存 的 字 节 码 有 以 下 
3 人 























NEW 

为 一 个 指定 类 型 的 新 对 象 分 配 空间 。 
NENARRAY 

为 一 个 基本 类 型 的 数组 分 配 空间 。 
ANENARRAY 

为 指定 类 型 对 象 的 一 个 数组 分 配 空间 。 
只 需要 对 这 3 个 字 节 码 进行 注入 ， 因 为 只 有 它们 才 会 引起 分 配 行为 。 
一 个 简单 的 注入 方法 包含 这 样 两 个 部 分 : 首先 定位 到 每 个 使 用 了 任何 一 个 分 配 操作 码 的 实例 ， 
其 次 插入 一 个 对 某 个 静态 方法 的 调用 ， 该 方法 会 在 分 配 操作 码 执 行 之 前 将 该 分 配 写 和 日志。 
接 下 来 看 看 这 样 一 个 分 配 剖 析 器 的 框架 。 我 们 需要 通过 一 个 premain() 钩子 使 用 Instrumentation 
API 来 设置 代理 : 


public class AllocAgent { 

















public static void premain(String args, Instrumentation instrumentation) { 
AllocRewriter transformer = new AllocRewriter(); 
instrumentation.addTransformer(transformer); 


} 
通常 要 使 用 一 个 库 来 实现 这 种 字 节 码 广 入 ， 而 不 是 试图 用 手写 的 代码 来 实现 变换 。 一 个 广 
泛 使 用 的 常见 字 节 码 操作 库 是 ASM， 我 们 将 用 它 来 演示 分 配 剖 析 。 


为 了 添加 所 需要 的 分 配 注 入 代码 ， 需 要 一 个 类 重 写 器 。 它 提供 了 Instrumentation API 和 
ASM 之 间 的 桥梁 ， 看 起 来 像 这 样 : 


public class ALLocRewriter implements ClassFileTransformer { 

















@Override 
public byte[] transform(ClassLoader loader, String className, 
Class<?> classBeingRedefined, ProtectionDomain protectionDomain, 
byte[] originalClassContents) throws IllegalClassFormatException { 
final ClassReader reader = new ClassReader(originalClassContents); 
final ClassWriter writer = new ClassWriter(reader, 
ClassWriter.COMPUTE_FRAMES | ClassWriter.COMPUTE_MAXS); 
final ClassVisitor coster = new ClassVisitor(Opcodes.ASM5, writer) 
@Override 


Ce 
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public MethodVisitor visitMethod(final int access, final String name， 
final String desc, final String signature, 
final String[] exceptions) { 
final MethodVisitor baseMethodVisitor = 
super .visitMethod(access, name, desc, signature, exceptions); 
return new AllocationRecordingMethodVisitor(baseMethodVisitor, 
access, Name, desc); 
} 
}; 
reader .accept(coster, ClassReader .EXPAND_FRAMES); 
return writer.toByteArray(); 


} 
它 使 用 一 个 方法 访问 者 来 检查 字 市 码 ， 并 插入 注入 调用 ， 以 文 持 跟踪 分 配 : 


public final class AllocationRecordingMethodVisitor extends GeneratorAdapter { 
private final String runtimeAccounterTypeName = 
"optjava/bc/RuntimeCostAccounter"; 


public AllocationRecordingMethodVisitor(MethodVisitor methodVisitor, 
int access, String name, String desc) { 
super(Opcodes.ASM5, methodVisitor, access, Name, desc); 





} 

/** 

* 当 访 问 到 一 个 带 有 单个 int 操 作 数 的 操作 码 时 ， 该 方法 被 调用 
* 就 目的 而 言 ， 这 是 一 个 NEWARRAY 操 作 码 

* Qparam opcode 

* Qparam operand 

和 

@Override 


public void visitIntInsn(final int opcode, final int operand) { 
if (opcode != Opcodes.NEWARRAY) { 
Super .visitIntInsn(opcode, operand); 
return; 


} 


// 操作 码 是 NEWARRAY - recordArrayAllocation:(Ljava/lang/String;I)V 
// 操作 数 的 值 应 该 是 这 几 种 类 型 之 一 : 0pcodes.T_BOOLEAN、 
// Opcodes.T_CHAR、 Opcodes.T_FLOAT、 Opcodes.T_DOUBLE、 Opcodes.T_BYTE、 
// 0pcodes.T_SHORT、0pcodes.T_INT 或 0pcodes.T_LONG 
final int typeSize; 
switch (operand) { 
case Opcodes.T_BOOLEAN: 
case Opcodes.T_BYTE: 
typeSize = 1; 
break; 


case Opcodes.T_SHORT: 

case Opcodes.T_CHAR: 
typeSize = 2; 
break; 


case Opcodes.T_INT: 





剖析 | 275 


这 也 需要 一 个 小 的 运行 时 组 件 : 


/** 


I 


case Opcodes.T_FLOAT: 
typeSize = 4; 
break; 

case Opcodes.T_LONG: 

case Opcodes.T_DOUBLE: 
typeSize = 8; 
break; 

default: 


throw new IllegalStateException("Illegal op: to NEWARRAY seen: " 
+ Operand); 
4 
super .visitInsn(Opcodes .DUP); 
super.visitLdcInsn(typeSize); 
super .visitMethodInsn(Opcodes.INVOKESTATIC, runtimeAccounterTypeName, 
"recordArrayAllocation", "(II)V", true); 
super .visitIntInsn(opcode, operand); 














访问 到 一 个 操作 数 为 类 型 (这 里 表示 为 一 个 String) 的 操作 码 时 ， 该 方法 就 被 调用 














@param opcode 
@param type 


*/ 


* 就 目的 而 言 ， 这 个 操作 码 或 者 是 NEW， 或 者 是 ANEWARRAY 


@Override 
public void visitTypeInsn(final int opcode, final String type) { 


} 


// 操作 码 是 NEW - recordAllocation:(Ljava/lang/String;)V 
// 或 ANEWARRAY - recordArrayAllocation:(Ljava/lang/String;I)V 
switch (opcode) { 
case 0pcodes .NEW : 
super .visitLdcInsn(type); 
super .visitMethodInsn(Opcodes.INVOKESTATIC, 
runtimeAccounterTypeName, "recordAllocation", 
"(Ljava/lang/String; )V", true); 
break; 
case Opcodes .ANEWARRAY: 
super .visitInsn(Opcodes .DUP); 
super .visitLdcInsn(8); 
super .visitMethodInsn(Opcodes.INVOKESTATIC, 
runtimeAccounterTypeName, "recordArrayAllocation", 
"(II)V", true); 
break; 


} 


super .visitTypeInsn(opcode, type); 





下 


pubLic class RuntimeCostAccounter { 
private static final ThreadLocal<Long> allocationCost = 


new ThreadLocal<Long>() { 





@Override 
protected Long initialValue() { 
return OL; 
} 
3 


public static void recordAllocation(final String typeName) { 
// 显然 要 更 复杂 一 些 
// 比如 缓存 我 们 遇 到 的 类 型 的 近似 大 小 
checkAllocationCost(1); 

} 


public static void recordArrayAllocation(final int length, 
final int multiplier) { 
checkALLocationCost(Length * multiplier); 


3 


private static void checkAllocationCost(final Long additional) { 
final Long newValue = additional + allocationCost.get(); 
allocationCost. set(newValue); 
// 采取 某 个 动作 ? 比如 ， 如 果 超 过 某 个 国 值 ， 则 失败 

} 


// 这 可 以 暴露 出 去 ， 比 如 通过 一 个 JMX 计 数 器 
public static long getAllocationCost() { 
return allocationCost.get(); 














} 


public static void resetCounters() { 
allocationCost.set(0L); 
上 
} 

这 两 组 代码 的 目的 是 提供 一 个 简单 的 分 配 注 入 功能 。 它 们 使 用 了 ASM 字 市 码 操作 库 
(很 遗憾 ， 完 整 描述 这 个 库 超 出 了 本 书 的 范围 )。 方 法 访问 者 在 字 节 码 NEW、NEWARRAY 和 
ANEWARRAY 的 每 一 个 实例 之 前 都 添加 了 对 记录 方法 的 调用 。 
进行 这 种 变换 之 后 ， 每 当 有 任何 新 的 对 象 或 数组 创建 时 ， 该 记录 方法 就 会 被 调用 。 这 必须 
通过 一 个 很 小 的 类 在 运行 时 提供 支持 一 一 RuntimeCostAccounter 〈 它 必须 在 类 路 径 上 )。 这 
个 类 会 记录 在 每 个 线程 中 被 注入 的 代码 分 配 了 多 少 内 存 。 
虽然 上 面 提供 的 这 种 字 节 码 级 的 技术 还 相当 粗糙 ， 但 是 这 给 有 兴趣 开发 自己 的 工具 来 测量 
其 线程 分 配 了 多 少 内 存 的 读者 提供 了 一 个 起 点 。 比 如 ， 这 可 以 用 于 单元 测试 或 回归 测试 ， 
以 确保 对 代码 的 修改 不 会 3 引入 大 量 的 额外 分 配 。 
但 是 如 果 要 完全 应 用 于 生产 之 中 ， 这 种 方法 可 能 并 不 合适 。 如 果 每 次 有 内 存 分 配 就 进行 额 
外 的 方法 调用 ， 就 会 导致 大 量 的 额外 调用 。JIT 编译 将 对 此 有 所 帮助 ， 因 为 注入 的 调用 将 
被 内 联 ， 但 总 体 效 果 仍 然 可 能 会 对 性 能 产生 非常 大 的 影响 。 
还 有 一 种 分 配 剖 析 方 法 是 TLAB 耗 尽 。 比 如 Async Profiler 的 特色 就 是 基于 TLAB 的 采样 
功能 。 它 使 用 了 HotSpot 特有 的 回调 功能 来 接收 如 下 通知 : 
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当 一 个 对 象 在 新 创建 的 TLAB 中 分 配 时 ， 
当 一 个 对 象 在 TLAB 之 外 分 配 时 ( 慢 路 径 ) 。 


因此 ， 并 不 是 每 个 对 象 的 分 配 都 会 被 计算 在 内 。 相 反 ， 总 的 来 说 ， 每 n KB 的 分 配 都 会 被 记 
录 下 来 ， 其 中 是 TLAB 的 平均 大 小 (回想 一 下 ，TLAB 的 大 小 可 能 会 随 着 时 间 的 流逝 而 
改变 )。 

这 样 设计 的 目的 是 使 堆 采 样 的 开销 足够 低 ， 以 适合 在 生产 中 应 用 。 但 是 ， 因 为 收集 到 的 数 
据 是 采样 过 的 ， 所 以 可 能 并 不 完整 。 其 目的 是 在 实践 中 它 将 反映 出 排 在 最 上 面 的 分 配 来 
源 ， 所 以 对 性 能 工程 师 而 言 ， 至 少 大 部 分 时 间 是 有 用 的 。 

要 使 用 TLAB 采样 功能 ， 我 们 需要 使 用 7u40 或 更 高 版 本 的 HotSpot JVM， 因 为 TLAB 回 
调 首先 会 出 现在 这 个 版 本 中 。 


13.6” 堆 转 储 分 析 


堆 转 储 分 析 (heap dump analysis) 是 与 分 配 谢 析 相 关 的 一 种 技术 。 该 技术 会 使 用 工具 来 检 
查 整 个 堆 的 快照 ， 并 确定 最 重要 的 事实 ， 比 如 活跃 集合 、 对 象 的 类 型 和 数量 ， 以 及 对 象 图 
的 形状 和 结构 。 


加 载 了 堆 转 储 后 ， 性 能 工程 师 就 可 以 过 历 和 分 析 堆 转 储 创 建 之 时 的 堆 快照 。 他 们 将 能 看 到 
活跃 的 对 象 和 任何 已 经 死亡 但 尚未 被 收集 的 对 象 。 


堆 转 储 的 主要 缺点 是 其 庞大 的 体积 。 一 个 堆 转 储 经 常 可 以 达到 被 转 储 内 存 大 小 的 300%~400%。 
对 于 有 几 个 GB 的 堆 而 言 ， 这 是 相当 大 的 。 堆 不 仅 必须 被 写 人 磁盘 ， 而 且 对 于 真正 的 生产 
用 例 ， 它 还 需要 通过 网 络 检索 。 一 旦 被 检索 ， 它 就 必须 被 加 载 到 有 足够 资源 (特别 是 内 
存 ) 的 工作 站 上 ， 以 便 在 不 向 工作 流程 中 引入 过 多 延迟 的 情况 下 处 理 该 转 储 。 对 于 较 大 型 
的 堆 转 储 ， 在 一 台 不 能 一 次 性 将 其 加 载 进来 的 机 器 上 处 理 非常 痛苦 ， 因 为 转 储 文件 的 部 分 
内 容 需 要 在 磁盘 和 内 存 之 间 进行 页 面 交 换 。 

要 生成 堆 转 赃 文件 ， 当 遍历 堆 并 写 出 转 赃 时 ， 也 需要 一 个 STW 事件 。 

YourKit 支持 以 hprof 和 专 有 格式 抓 取 内 存 快照 。 图 13-20 是 堆 转 储 分 析 器 的 视图 。 


在 商业 工具 中 ， 对 于 堆 转 储 的 过 滤器 和 其 他 视图 ，YourKit 提供 了 一 个 很 好 的 选择 ， 其 中 
包括 能 够 通过 类 加 载 器 (class loader) 和 Web 应 用 程序 对 堆 进 行 分 解 ， 从 而 可 以 更 快 地 诊 
断 堆 问题 。 
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图 13-20， YourKit 内 存 转 储 分 析 器 


JMC/JFR 的 分 配 视图 也 是 值得 考虑 的 工具 。 它 能 够 显示 TLAB 分 配 视图 ，Async Profiler 也 


有 这 个 视图 。 图 13-21 是 JMC 分 配 视图 的 一 个 示例 。 
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图 13-21: JMC 分 配 剖 析 视图 
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对 于 大 部 分 需要 剖析 的 应 用 程序 来 说 ， 分 配 和 剖析 是 应 该 考虑 的 ， 我 们 希望 性 能 工程 师 不 
要 因为 过 度 关注 执行 剖析 而 忽视 了 内 存 剖 析 。 


hprof 


从 JDK 5 起 ，hprof 剖析 器 就 随 JDK 一 起 发 布 了 。 甚 主要 目的 是 作为 JVMTI 技术 的 参考 
实现 ， 而 不 是 一 个 生产 级 的 剖析 器 。 尽 管 如 此 ， 它 经 常 在 文档 中 被 提 及 ， 使 得 一 些 开 发 人 
员 认 为 hprof 是 一 个 适合 实际 使 用 的 工具 。 


从 Java9 (JEP 240) 开始 ，hprof 将 从 JDK 中 移 除 ， 相 关 JEP 对 此 有 如 下 说 明 。 


hprof 代理 是 作为 JVM 工具 接口 (JVM TI) 的 演示 代码 编写 的 ， 无 意 成 为 生产 
工具 。 


此 外 ，hprof 的 代码 和 文档 中 包含 了 一 些 一 般 形式 的 说 明 。 
这 是 JVM TI 接口 和 使 用 BCI 的 演示 代码 ; 它 不 是 JDK 的 正式 产品 或 正式 部 分 


因此 ， 除 了 作为 堆 快 照 的 遗留 格式 外 ， 你 不 应 该 依赖 hprof。 在 Java 9 以 及 可 预见 的 未 来 ， 
创建 堆 转 储 的 能 力 需 要 继续 保持 。 


13.7 ”小结 


齐 析 是 一 个 经 常 被 开发 人 员 误 解 的 主题 。 虽 然 执行 剖析 和 内 存 剖 析 都 是 必要 的 技术 ， 但 是 
性 能 工程 师 了 解 他 们 正在 做 什么 以 及 为 什么 这 样 做 也 是 非常 重要 的 。 简 单 宣 目地 使 用 工具 
会 产生 完全 不 准确 或 不 相关 的 结果 ， 并 浪费 大 量 的 分 析 时 间 。 


对 现代 应 用 程序 进行 剖析 需要 使 用 工具 ， 这 方面 有 大 量 的 选项 ， 包 括 商业 的 和 开源 的 。 

















第 14 章 


高 性 能 日 志和 消息 系统 





在 与 C++ 等 语言 比较 时 ,使 用 Java 和 JVM 有 时 被 认为 是 一 种 权衡 。Java 通过 减少 开发 人 
员 在 日 常 开发 中 必须 处 理 的 低级 问题 ， 提 高 了 生产 力 。 人 们 认为 的 权衡 就 是 以 牺牲 底层 控 
制 和 原始 性 能 为 代价 ， 通 过 更 高 级 别 的 语言 抽象 来 提高 开发 人 员 的 生产 效率 。 

C++ 采 取 的 方法 是 ， 不 管 有 什么 新 的 语言 特性 ， 性 能 都 不 能 有 丝毫 的 影响 。C++ 的 理念 使 
我 们 可 以 做 到 非常 精细 的 控制 ， 但 代价 是 每 个 开发 人 员 都 必须 手动 管理 资源 或 壮 从 恰当 的 
习惯 用 法 。 


Java 平台 采取 的 方法 是 开发 人 员 不 需要 关心 底层 细节 。 不 要 低估 自动 内 存 管理 的 好 处 ， 它 
对 生产 力 的 提升 是 巨大 的 ， 作 者 已 经 用 多 年 的 时 间 见 证 过 ， 一 个 C++ 程序 员 稍 有 不 慎 就 会 
造成 的 错误 ， 进 而 带 来 的 损失 让 我 至 今 都 心 有 余 怪 。 

然而 ， 在 JVM 上 的 垃圾 收集 以 及 其 他 更 高 级 别 的 托管 抽象 ， 都 会 在 性 能 方面 造成 一 定 程 
度 的 不 确定 性 。 当 然 ， 在 对 延迟 很 敏感 的 应 用 程序 中 ， 这 种 不 确定 性 应 该 尽量 减少 。 


这 是 否 意味 着 Java 和 JVM 不 是 一 个 适合 于 高 性 能 系统 的 平台 呢 ? 










































































本 章 则 在 探索 开发 人 员 在 考虑 高 性 能 、 低 延迟 应 用 程序 时 需要 解决 的 一 些 常见 问题 ， 同 时 
还 将 研究 低 延 迟 系 统 的 设计 方法 和 要 求 。 对 于 低 延 到 、 高 性 能 的 系统 来 说 ， 日 志和 消息 是 
两 个 核心 的 考虑 因素 。 

任何 一 位 Java 开发 人 员 都 应 该 关注 日 志 ， 因 为 一 个 可 维护 的 Java 系统 通常 包含 大 量 的 日 
志 消 息 。 特 别 是 对 于 重视 延迟 的 开发 人 员 来 说 ， 日 志 更 是 尤为 重要 。 幸 运 的 是 ， 人 们 在 日 
志 的 开发 和 研究 方面 已 经 积累 了 大 量 经 验 ， 本 章 将 加 以 探讨 。 
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消息 系统 提供 了 近年 来 最 成 功 的 架构 模式 之 一 。 它 们 通常 处 于 低 延 迟 系统 的 前 沿 ， 一 般 以 
每 秒 处 理 的 消息 数量 来 衡量 。 一 个 系统 能 够 处 理 的 消息 数量 往往 是 获得 竞争 优势 的 关键 。 
如 果 能 够 把 吞吐 量 (比如 每 秒 的 交易 数量 ) 和 有 形 价值 关联 起 来 ， 那 么 在 这 个 领域 就 可 以 
获得 广泛 的 研究 和 大 量 的 资助 。 本 章 后 面 会 讨论 一 些 现代 的 消息 方法 。 


14.1 日 志 


对 于 许多 开发 人 员 来 说 ， 他 们 并 没有 把 日 志 库 看 作 项 目的 重要 组 成 部 分 ， 因 此 选择 它们 的 
时 候 会 尽 可 能 人 简单， 不 会 考虑 太 多 。 这 与 向 项 目 中 引入 的 许多 其 他 库 形成 了 鲜明 对 比 ， 人 
们 会 花 时 间 研 究 其 他 库 的 功能 ， 甚 至 可 能 要 进行 一 些 性 能 基准 测试 。 
围绕 生产 级 日 志 系 统 的 选择 ， 有 以 下 儿 种 反 模 式 。 
十 年 不 变 的 日 志 记 录 器 

曾经 有 人 成 功 地 配置 过 日 志 记 录 器 ， 直 接 借用 其 配置 要 比重 新 创建 容易 得 多 。 
项 目 范围 的 日 志 记 录 器 

曾经 有 人 对 日 志 记录 器 进行 了 包装 ， 以 避免 在 项 目的 每 个 部 分 重新 配置 。 
公司 范围 的 日 志 记 录 器 

曾经 有 人 创建 了 一 个 日 志 记 录 器 ， 供 全 公司 使 用 。 
当然 不 会 有 人 刻意 制造 未 来 会 出 现 的 问题 。 对 于 日 志 架 构 的 选择 ， 通 常 有 一 个 合理 的 理 
由 ， 比 如 要 和 公司 的 其 他 功能 集成 ， 这 就 形成 了 公司 范围 的 日 志 记 录 器 。 未 来 的 问题 往往 
与 日 志 系 统 的 维护 有 关 ， 因 为 人 们 一 般 不 会 认为 它 对 业务 非常 关键 。 这 种 忽视 会 导致 可 能 
波及 整个 组 织 的 技术 债务 。 尽 管 日 志 记 录 器 不 是 那么 让 人 人 兴奋， 而且 其 选择 往往 也 会 按照 
前 面 提 到 的 某 种 反 模 式 进行 ， 但 是 它们 对 所 有 应 用 程序 都 是 非常 重要 的 。 
在 很 多 高 性 能 环境 中 ， 精 确 处 理 并 报告 与 执行 速度 同样 重要 。 速 度 很 快 ， 但 是 不 正确 是 没 
有 意义 的 ， 而 且 对 精确 报告 处 理 的 情况 往往 还 有 审计 要 求 。 日 志 有 助 于 识别 生产 问题 ， 所 
以 应 该 记录 足够 多 的 信息 ， 以 便 团 队 能 够 在 事后 调查 问题 。 重 要 的 是 ， 不 能 简单 地 把 日 志 
记录 器 当 作 一 项 成 本 ， 而 应 该 像 系统 中 的 任何 其 他 组 件 一 样 ， 需 要 仔细 控制 并 在 深思 熟 虑 
之 后 引入 项 目 。 


对 日 志 记 录 器 做 基准 测试 
本 节 将 探讨 一 组 微 基 准 测试 ， 旨 在 公平 地 比较 3 种 最 流行 的 日 志 记 录 器 〈Logback、Log4j 
和 java.utiL.Logging) 在 不 同日 志 模 式 下 的 性 能 。 

这 些 统计 数据 是 基于 Stephen Connolly 的 一 个 开源 项 目 ， 可 以 在 GitHub 上 找到 。 该 项 目 设 
计 得 很 好 ， 是 以 可 运行 的 基准 测试 套件 的 形式 提供 的 ， 其 中 多 个 日 志 记 录 器 可 以 在 不 同 的 
配置 下 运行 。 

































































这 些 基准 测试 研究 了 每 种 日 志 记 录 器 和 不 同日 志 格 式 的 组 合 ， 从 而 使 我 们 了 
解 了 日 志 框 架 的 整体 性 能 ， 以 及 模式 是 否 会 对 性 能 产生 任何 影响 。 








这 里 有 必要 明确 解释 一 下 使 用 微 基准 测试 方法 的 原因 。 在 讨论 这 些 具体 技术 的 细节 时 ， 我 
们 面临 着 一 个 与 库 的 作者 类 似 的 问题 : 我 们 想 了 解 不 同日 志 记 录 器 在 不 同 配置 下 的 性 能 ， 
但 知道 要 找到 一 组 好 的 语料库 ， 使 其 非常 符合 我 们 需要 的 日 志 配 置 ， 并 提供 可 以 进行 有 意 
义 的 比较 的 结果 将 是 非常 凿 手 的 。 


当代 码 在 许多 不 同 的 应 用 程序 中 运行 时 ， 微 基准 测试 可 以 估计 代码 将 如 何 执 行 。 这 就 是 用 
于 微 基准 测试 的 “通用 的 、 不 存在 语料库 意义 的 ”用 例 。 


这 些 数字 提供 了 一 个 整体 的 概况 ， 但 在 实际 的 应 用 程序 中 ， 使 用 的 前 后 都 必须 对 其 进行 剖 
析 ， 以 便 真正 理解 修改 带 来 的 影响 。 


接 下 来 看 一 些 结果 ， 以 及 它们 是 如 何 实现 的 。 
1. 没有 日 志 
没有 日 志 是 基准 测试 进行 的 一 项 测试 ， 用 于 测试 在 没有 日 志 操 作 的 情况 下 的 成 本 ， 它 所 生 
成 的 日 志 消 息 在 日 志 记 录 器 活跃 的 辣 值 之 下 。 可 以 将 其 看 作 实 验 的 控制 组 。 
2. Logback 格式 
14:18:17.635 [Name Of Thread] INFO c.e.NameOfLogger - Log message 
这 个 基准 测试 使 用 的 是 Logback 的 1.2.1 版 本 。 
3. java.util.logging 格式 


Feb 08, 2017 2:09:19 PM com.exampLe.NameOfLogger nameOfMethod 
INFO: Log message 


4. Log4j 格式 
2017-02-08 14:16:29,651 [Name Of Thread] INFO com.exampLe.NameOfLogger - message 
这 个 基准 测试 使 用 的 是 Log4j 的 2.7 版 本 。 


5. 测量 



































为 了 比较 , 在 iMac 和 AWS (Amazon Web Services) EC {2.2xlarge 实例 上 已 经 运行 了 基准 
测试 〈 参 见 表 14-1 和 表 14-2)。 在 macOS 上 进行 剖析 时 ， 可 能 会 因为 各 种 节能 技术 而 导 
致 问题 ， 而 AWS 的 缺点 是 其 他 容器 可 能 会 影响 基准 测试 的 结果 。 没 有 哪个 环境 是 完美 的 : 
干扰 总 会 存在 ， 正 如 第 5 章 所 讨论 的 ， 微 基准 测试 充满 各 种 风险 。 希 望 通过 比较 这 一 基准 
测试 的 两 个 数据 集 可 以 帮助 我 们 揭示 一 些 有 用 的 模式 ， 为 真正 的 应 用 程序 的 剖析 提供 指 
导 。 每 当 需 要 处 理 实验 数据 时 ， 请 记 住 Feynman 的 “不 能 糊弄 自己 ”的 原则 。 


表 14-1: 在 iMac 上 执行 的 基准 测试 (ns/op ) 


没有 日 志 Logback 格 式 java.utiL.Logging 格 式 “Log4j 格 式 
Java util 158.051 ( 士 0.762) ”42 404.202 ( 士 S41.229) ”86 054.783 ( 士 S41.229) 74 794.026 ( 土 2244.146) 
日 志 记 录 器 
Log4] 138.495 ( 士 94.490) 8056.299 ( 土 447.815) 32 755.168 ( 士 27.054) 5323.127 ( 士 47.160) 
Logback 214.032 ( 土 2.260) 5507.546 (十 238.971) 27 420.108 (十 37.054) 3501.858 ( 士 47.873) 
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表 14-2: 在 AWS EC t2.2xlarge 上 执行 的 基准 测试 (ns/op) 
没有 日 志 Logback 格 式 java.util.logging 格 式 。 Log4j 格 式 
Javautil 1376.597( 土 106.613) 54658.098( 土 516.184) 144 661.388 ( 士 10 333.854) 109 895.219( 土 5457.031) 
日 志 记 录 器 
Log4j 1699.774 ( 士 111.222) 5835.090 ( 士 27.592) 34 605.770 ( 士 38.816) 5809.098 ( 士 27.792) 
Logback 2440.952( 土 159.290) 4786.511 ( 士 29.$26) 30 550.569 ( 士 39.951) 5485.938 ( 土 38.674) 


Javanutil 日 志 记 录 器 在 执行 日 志 操 作 时 ， 每 个 操作 的 时 间 是 42 404 ~86 054 纳 秒 。 该 日 志 记 
录 器 在 使 用 java.utiL.Logging 格式 时 性 能 最 差 ， 与 使 用 同样 格式 的 Log4j 相 比 ， 要 差 2.5 
倍 以 上 。 

总 之 ， 在 iMac 上 运行 该 基准 测试 时 ，Logback 的 性 能 最 好 ， 此 时 使 用 的 是 Log4j 风格 的 日 
志 格 式 化 器 。 

通过 观察 在 AWS 上 运行 的 基准 测试 ， 我 们 可 以 看 到 结果 所 表现 出 的 整体 模式 与 iMac 上 的 
类 似 。Logback 比 Log4j 稍 快 。 从 这 些 结果 中 可 以 得 到 一 些 关键 的 启示 。 

正确 衡量 对 应 用 程序 的 影响 ， 需 要 在 生产 硬件 上 进行 配置 修改 的 前 后 都 对 应 
用 程序 进行 剖析 。 这 里 运行 的 基准 测试 应 该 在 你 实际 中 的 生产 机 器 上 重复 运 
行 ， 不 能 照搬 结论 。 
















































































不 过 ， 在 AWS 上 的 整体 执行 速度 明显 更 快 ， 这 可 能 是 由 于 iMac 上 的 节能 功能 或 其 他 未 被 
捕获 的 因素 所 致 。 


6. 日 志 记录 器 结果 

从 基准 测试 可 以 看 出 ， 根 据 所 用 的 日 志 格式 、 日 志 框架 和 配置 的 不 同 ， 我 们 会 得 到 一 系列 
结果 。 从 执行 时 间 上 看 ，util 日 志 一 般 来 说 总 体 表 现 最 差 ，Log4j 格式 似乎 给 出 的 结果 最 为 
一 致 ，Logback 执行 日 志 语 句 的 时 间 最 好 。 

在 真实 的 系统 中 ， 在 生产 包 上 测试 执行 时 间 性 能 是 值得 的 ， 特 别 是 当 数 字 如 此 接近 时 。 真 
实 系统 难以 捉摸 ， 只 有 最 清晰 的 信号 才能 作为 任何 底层 信息 的 证 据 ， 通 常情 况 下 几 十 个 百 
分 点 是 不 够 的 。 

正如 第 5 童 所 讨论 的 ， 微 基准 测试 的 危险 在 于 ， 从 小 处 研究 问题 可 能 会 掩盖 其 对 应 用 程序 
的 整体 影响 ， 并 且 根 据 这 些微 基准 测试 所 做 出 的 决定 可 能 还 会 给 应 用 程序 带 来 意 想不到 的 
影响 。 

就 像 消 耗 在 记录 日 志 而 不 是 处 理 关 键 业 务 的 并 发 任务 上 的 CPU 时 间 一 样 ， 日 志 框 架 所 产 
生 的 垃圾 的 数量 也 是 一 个 考量 因素 。 日 志 库 的 设计 和 其 工作 机 制 ， 与 微 基 准 测 试 中 的 直线 
执行 的 结果 同样 重要 。 


14.2 ”设计 一 个 影响 较 低 的 日 志 记 录 器 


日 志和 是 任何 应 用 程序 的 关键 组 件 ， 但 在 低 延 迟 的 应 用 程序 中 ， 日 志 记录 器 不 能 成 为 业务 罗 
辑 性 能 的 瓶颈 ， 这 是 至 关 重 要 的 。 本 章 前 面 探 讨 过 这 样 的 看 法 ， 即 开发 人 员 往 往 不 会 刻意 
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地 去 选择 合适 的 日 志 记录 器 ， 也 不 会 做 基准 测试 。 在 很 多 情况 下 ， 只 有 当日 志 记录 成 为 应 

用 程序 中 的 一 个 巨大 或 主要 的 成 本 时 ， 它 才 会 作为 一 个 问题 浮 出 水 再 
到 目前 为 止 ， 我 遇 到 的 客户 中 很 少 有 人 没有 受到 日 志 带 来 的 某 种 负面 影响 。 有 个 
极 问 的 案例 ， 即 客户 有 4.5 秒 的 时 间 预 算 ， 日 志 记 录 就 用 了 4.2 秒 。 











lo 





一 一 Kirk Pepperdine 

Log4j 2.6 版 本 希望 通过 引入 一 个 稳 态 的 无 垃圾 日 志 记 录 器 来 解决 Kirk 提出 的 问题 。 

文档 中 重点 列 出 了 一 个 简单 的 测试 ， 包 括 在 Java Flight Recorder 中 运行 应 用 程序 ， 以 
便 在 12 秒 内 尽 可 能 频繁 地 对 打印 字符 串 日 志 的 操作 进行 采样 。 日 志 记 录 器 配置 通过 
RandomAccessFile 进行 追加 操作 的 异步 方式 ， 使 用 的 模式 为 %d %p %c{1.} [%t] %m %ex%n。 
14-1 演示 的 是 一 个 非 稳 态 的 垃圾 收集 器 和 一 个 用 于 比较 的 采样 配置 。 这 里 无 意 提供 一 个 精 
确 的 基准 测试 ， 而 是 希望 对 日 志 行 为 的 剖析 有 个 整体 的 了 解 。 从 剖析 器 可 以 很 明显 地 看 出 垃 
圾 收集 周期 : 总 计 收集 次 数 是 141 次 ， 平均 暂 停 时 间 约 为 7 毫秒 ， 最 大 和 暂停 时 间 为 52 毫秒 。 
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14-1， 对 Log4j 2.5 的 运行 进行 采样 


将 图 14-1 与 图 14-2 进行 比较 ， 可 以 看 出 Log4j 2.6 的 不 同 之 处 : 在 相同 的 时 间 段 内 ， 没 有 
出 现 垃圾 收集 周期 。 
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14-2: 对 Log4j 2.6 的 运行 进行 采样 
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当 以 图 14-2 所 示 的 方式 配置 运行 时 ，Log4j 2.6 具有 明显 的 优势 。 然 而 ， 受 零 分 配 日 志 记 
录 器 实现 的 方式 所 限 ， 它 也 有 一 些 不 足 ， 毕 竞 天 下 没有 免费 的 午餐 。 

我 们 看 到 Log4j 的 性 能 提升 是 通过 复 用 对 象 ， 而 不 是 为 每 条 日 志 消 息 创建 临时 对 象 来 实现 
的 。 这 是 对 象 凶 (object pool) 模式 的 经 典 用 法 ， 各 种 后 果 也 随 之 而 来 。Log4j 2.6 通过 使 
用 ThreadLocal 字段 和 复 用 用 于 将 字符 串 转 换 为 字 节 的 缓冲 区 来 实现 对 象 复 用 。 


这 也 是 我 们 仅仅 通过 观察 微 基 准 测试 而 无 法 推断 出 的 结果 之 一 。 和 以 往 一 
样 ， 必 须 考 虑 设计 和 大 局 。 






































ThreadLocal 对 象 在 Web 容器 中 可 能 会 出 现 问题 ， 特 别 是 当 Web 应 用 程序 被 加 载 到 容器 中 
和 从 容器 中 仓 载 时 。 当 在 Web 容器 中 运行 时 ，Log4j 2.6 不 会 使 用 ThreadLocal， 但 是 仍然 
会 使 用 一 些 共 享 和 缓存 结构 来 帮助 提高 性 能 。 
如 果 应 用 程序 已 经 在 使 用 旧版 本 的 Log4j ， 那 你 应 该 考虑 直接 将 其 升级 到 2.6 版 本 并 重新 
检查 配置 。 通 过 使 用 可 变 参 数 (vararg)， 为 传递 给 日 志 输 出 语句 的 参数 创建 一 个 临时 数 
组 ， 可 以 使 Log4j 减少 分 配 的 数量 。 如 果 是 通过 SLF4J (The simple logging facade for Java， 
Java 简单 日 志 门 面 ) 来 使 用 Log4j， 这 个 门面 (facade) 仍然 只 支持 两 个 参数 。 因 此 ， 要 通 
过 SLF4J 使 用 更 多 参数 ， 就 不 能 使 用 无 垃圾 方法 或 重 构 代 码 库 来 直接 使 用 Log4j 2 库 。 


14.3 ”使 用 Real Logic 库 实现 低 延 迟 


Real Logic 是 一 家 位 于 英国 的 公司 ， 由 Martin Thompson 创立 。Martin 以 开创 了 机 械 共鸣 的 
方法 而 闻名 ， 该 方法 的 基础 就 是 理解 底层 细节 如 何 影响 高 性 能 设计 。Martin 对 Java 领域 最 
著名 的 贡献 之 一 是 Disruptor 模式 。 

Martin 的 博客 也 叫 “ 机 械 共 鸣 ”(mechanical sympathy)， 对 于 想 提 升 其 应 用 
程序 的 性 能 极限 的 开发 人 员 来 说 ， 这 个 博客 和 相关 的 邮件 列表 是 非常 好 的 学 

习 资 源 。 




































































Real Logic 公司 的 GitHub 页 面 上 有 以 下 几 个 很 受 欢迎 的 开源 项 目 ， 它 们 都 借鉴 了 Martin 和 
其 他 贡献 者 的 专业 经 验 。 
Agrona 
用 于 Java 的 高 性 能 数据 结构 和 工具 方法 。 
Simple Binary Encoding (SBE) 
一 个 高 性 能 的 编 解 码 嚣 。 
Aeron 
高 效 可 靠 的 UDP 单 播 、UDP 多 播 和 IPC 消息 传输 。 
后 面 几 节 将 探索 这 些 项 目 ， 并 研究 使 得 这 些 库 突破 Java 性 能 极限 的 设计 理 








这 








Real Logic 公司 还 托管 了 一 个 利用 这 些 库 来 实现 的 可 迅速 恢复 的 高 性 能 FIX 
网 关 。 不 过 本 章 不 会 进一步 探讨 。 








14.3.1 Agrona 


Project Agrona 这 个 名 字源 于 威尔士 和 苏格兰 的 凯 尔 特 神话 ， 它 是 一 个 库 ， 包 含 用 于 开发 
低 延 迟 应 用 程序 的 构建 块 。 在 12.3 节 中 ， 我 们 讨论 过 在 适当 的 抽象 层次 上 使 用 java.util. 
concurrent 的 想法 ， 以 避免 重新 发 明 轮 子 。 


Agrona 为 真正 的 低 延 迟 应 用 程序 提供 了 一 组 类 似 的 库 。 如 果 已 经 证 明 标 准 库 不 能 满足 自 
己 的 用 例 ， 那 么 在 编写 自己 的 库 之 前 ， 需 要 人 先 评估 这 些 库 。 这 个 项 目 进 行 了 良好 的 单元 测 
试 ， 提 供 了 不 错 的 文档 并 拥有 活跃 的 社区 。 

1. 缓冲 区 

Richard Warburton 写 了 一 篇 很 好 的 文章 来 介绍 缓冲 区 以 及 Java 中 的 缓冲 区 存在 的 问题 。 


概括 地 说 ，Java 提供 了 一 个 ByteBuffer 类 ， 它 为 缓冲 区 〈 既 可 以 是 直接 的 ， 也 可 以 是 非 直 
接 的 ) 提供 了 一 个 抽象 。 


直接 缓冲 区 存在 于 通常 所 谓 的 Java 堆 之 外 ， 但 仍 在 整个 JVM 进程 的 “C 堆 ” 之 内 。 因 此 ， 
与 堆 内 〈 非 直接 ) 缓冲 区 相 比 ， 它 的 分 配 率 和 回收 率 通常 更 低 。 直 接 缓冲 区 的 优势 是 ， 
JVM 会 尝试 在 该 结构 上 直接 调用 指令 ， 而 不 需要 中 间 映 射 。 


ByteBuffer 的 主要 问题 是 ， 它 是 为 通用 场景 设计 的 ， 因 此 无 法 应 用 特定 于 缓冲 区 类 型 的 优 
化 。 例 如 ， 它 们 不 支持 原子 操作 ， 所 以 如 果 想 在 缓冲 区 上 构建 一 个 生产 者 /消费 者 风格 的 
模型 ， 就 会 出 现 问题 。 每 次 要 包装 一 个 不 同 的 结构 时 ，ByteBuffer 都 会 要 求 分 配 一 个 新 的 
底层 缓冲 区 。 在 Agrona 中 ， 复 制 可 以 避免 ， 它 支持 4 种 带 有 不 同 特性 的 缓冲 区 ， 支 持 你 
定义 和 控制 与 每 个 缓冲 区 对 象 可 能 的 交互 。 

。 DirectBuffer 接口 只 提供 了 从 缓冲 区 读 取 的 能 力 ， 它 位 于 接口 层次 结构 的 最 上 
。 MutableDirectBuffer 接口 扩展 了 DirectBuffer， 并 向 该 缓冲 区 添加 了 写 操作 。 
。 AtomicBuffer 接口 扩展 了 MutableDirectBuffer ， 提 供 了 排序 行为 。 

。 UnsafeBuffer 这 个 类 使 用 Unsafe 实现 了 AtomicBuffer。 


14-3 演示 了 Agrona 的 缓冲 区 类 的 继承 层次 结构 。 
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14-3; Agrona 缓冲 区 


正如 你 可 能 想象 的 ，Agrona 中 的 代码 非常 底层 ， 而 且 大 量 使 用 了 Unsafe， 包 括 以 下 这 样 的 
代码 片段 : 

// This horrible filth is to encourage the JVM to call memset() 

// when address is even. 

// TODO: check if this still applies when Java 9 is out!!! 

UNSAFE .putByte(byteArray, indexOffset, value); 

UNSAFE. setMemory(byteArray, indexOffset + 1, length - 1, value); 


这 并 不 是 说 Agrona 会 想 尽 各 种 办 法 进行 特殊 处 理 ， 恰 恰 相 反 ， 这 段 代 码 的 需求 是 绕 过 
JVM 内 部 所 应 用 的 一 个 旧 的 优化 ， 现 在 该 优化 已 经 是 反 优 化 了 。 这 个 类 库 深 入 到 这 种 细节 
层次 就 是 为 了 实现 性 能 最 大 化 。 

Agrona 缓冲 区 支持 通过 各 种 get 方法 来 访问 底层 数据 ， 例 如 getLong(int index)。 尽 管 缓 
冲 区 是 被 包装 起 来 的 ， 但 开发 人 员 还 是 要 知道 数据 的 索引 在 什么 位 置 。 此 外 ，put 操作 支 
持 将 Long 类 型 的 值 放 到 缓冲 区 的 某 个 特定 位 置 。 请 注意 ,缓冲 区 并 不 是 任何 一 种 单一 的 类 
型 ， 这 取决 于 开发 人 员 如 何 为 其 数据 选择 和 管理 恰当 的 结构 。 因 为 边界 检查 可 以 启用 或 禁 
用 ， 所 以 死 代 码 可 以 由 JIT 编译 器 优化 掉 。 


2. 列表 、 映 射 和 集 

Agrona 提供 了 一 系列 列表 实现 ， 背 后 由 int 或 Long 等 基本 类 型 的 数组 提供 支持 。 正 如 我 
们 在 11.1 节 所 提 到 的 ，Java 并 没有 提供 在 数组 中 并 排 摆 放 对 象 的 布局 机 制 ， 因 此 在 标准 
的 集合 类 中 ， 得 到 的 结果 是 由 引用 组 成 的 数组 。 同 样 情况 下 ， 强 制 使 用 对 象 而 不 是 基本 类 
型 ， 除 了 对 象 本 身 大 小 所 带 来 的 开销 ， 还 会 导致 自动 装 箱 和 拆 箱 。Agrona 还 提供 了 用 于 
ArrayList 的 工具 类 ， 支 持 从 ArrayList 中 快速 移 除 元 素 ， 但 会 破坏 原 有 的 顺序 关系 。， 


Agrona 的 映射 和 集 实现 将 键 和 值 并 排 存储 在 一 个 散 列表 结构 中 。 如 果 键 发 生 碰撞 (collision)， 

















注 1: 这 里 说 的 工具 类 是 指 ArrayListutil， 它 所 提供 的 用 于 移 除 元 素 的 方法 的 处 理 逻 辑 是 ， 移 除 指定 位 置 
的 元 素 ， 并 将 最 后 一 个 元 素 放 到 该 位 置 ， 而 不 是 将 指定 位 置 之 后 的 元 素 依次 向 左 移动 ， 所 以 会 破坏 原 
有 的 顺序 关系 。 一 一 译 者 注 
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那 下 一 个 值 就 会 紧 接 着 存储 在 散 列表 中 原 位 置 的 后 面 。 这 种 结构 使 其 很 适合 快速 访问 存在 
于 同一 缓存 行 上 的 简单 映射 。 

3. 队列 

Agrona 有 自己 的 并 发 包 ， 其 中 包含 有 用 的 并 发 实用 程序 和 结构 ， 这 包括 队列 和 环形 缓冲 
(ring buffer) 区 。 


队列 遵循 标准 的 java.util.Queue 接口 ， 它 们 可 以 用 来 代 蔡 标准 的 队列 实现 。Agrona 队列 
还 实现 了 org.agrona.concurrent.Pipe 接口 ， 该 接口 增加 了 对 按 顺 序 处 理 的 容器 的 支持 。 
特别 是 Pipe 增加 了 对 计数 (count)、 容 量 (capacity) 和 排 干 (drain) 操作 的 支持 ， 以 便 
与 该 队列 的 销 费 者 轻松 交互 。 这 些 队 列 都 是 无 锁 的 ， 并 且 为 了 适用 于 低 延 迟 系统 ， 它 们 还 
使 用 了 Unsafe。org.agrona.concurrent.AbstractConcurrentArrayQueue 为 一 系列 队列 提供 
了 一 级 支持 ， 这 些 队 列 将 提供 不 同 的 生产 者 / 消费 者 模型 。 这 个 API 的 一 个 有 趣 的 部 分 是 
如 下 这 些 类 : 
/** 


* Pad out a cache Line to the left of a producer fields 
* to prevent false sharing. 












































Ss/ 
class AbstractConcurrentArrayQueuePadding1 
{ 
@SuppressWarnings("unused") 
protected long pi, p2, p3, p4, p5, p6, p7, p8, p9, p10, p11, p12, 
p13, p14, p15; 
3 
/** 
* Values for the producer that are expected to be padded. 
Wi 


class AbstractConcurrentArrayQueueProducer 
extends AbstractConcurrentArrayQueuePadding1 


{ 

protected volatile long tail; 

protected Long headCache; 

protected volatile long sharedHeadCache; 
} 
/** 


* Pad out a cache line between the producer and consumer fields to prevent 
* false sharing. 
*/ 
class AbstractConcurrentArrayQueuePadding2 
extends AbstractConcurrentArrayQueueProducer 


@SuppressWarnings("unused") 
protected long p16, p17, p18, p19, p20, p21, p22, p23, p24, p25, 
p26, p27, p28, p29, p30; 
} 
/** 
* Values for the consumer that are expected to be padded. 
gh 
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class AbstractConcurrentArrayQueueConsumer 
extends AbstractConcurrentArrayQueuePadding2 


{ 
} 


protected volatile long head; 


/** 
* Pad out a cache line between the producer and consumer fields to 
* prevent false sharing. 
S| 
class AbstractConcurrentArrayQueuePadding3 
extends AbstractConcurrentArrayQueuePadding2 
{ 
@SuppressWarnings("unused") 
protected long p31, p32, p33, p34, p35, p36, p37, p38, p39, p40, 
p41, p42, p43, p44, p45; 
} 


/** 

* Leftover immutable queue fields. 

eh 

public abstract class AbstractConcurrentArrayQueue<E> 
extends AbstractConcurrentArrayQueuePadding3 
implements QueuedPipe<E> {...} 


值得 注意 的 是 ， 未 来 可 能 会 使 用 sun.misc.contended (或 jdk.internal.vm. 
annotation.Contended) 来 生成 这 种 缓存 行 填充 。 











从 AbstractConcurrentArrayQueue 的 代码 片段 可 以 看 出 ， 队 列 的 内 存 布局 有 巧妙 的 〈 强 制 
的 ) 安排 ， 以 避免 当 该 队列 被 消费 者 和 生产 者 并 发 访问 时 发 生 伪 共享 。 之 所 以 需要 这 样 填 
充 ， 是 因为 Java 和 JVM 并 不 保证 字段 在 内 存 中 的 布局 。 
将 生产 者 和 消费 者 分 别 放 在 不 同 的 缓存 行 上 可 以 确保 该 结构 能 够 在 低 延 迟 、 高 否 吐 量 的 情 
况 下 正常 执行 。 缓 存 行 是 用 来 访问 内 存 的 ， 如 果 生 产 者 和 消费 者 共用 同一 缓存 行 ， 那 它 被 
并 发 访问 时 就 会 出 现 问 题 。 
这 个 API 有 以 下 3 种 具体 实现 ， 通 过 它们 来 实现 分 离 ， 从 而 具有 在 代码 中 有 必要 的 地 方才 
需要 进行 协调 。 
OneTooneConcurrentArrayQueue 
如 果 我 们 选择 一 个 生产 者 和 一 个 消费 者 ， 那 就 表明 只 有 当 生 产 者 和 消费 者 同时 访问 该 结 
构 时 才 会 发 生 并 发 访问 。 我 们 只 需要 关注 头 部 和 尾部 位 置 ， 因 为 这 些 位 置 每 次 只 会 被 一 
个 线程 更 新 。 
头 部 位 置 唯一 会 更 新 的 情况 是 ， 通 过 轮 询 或 排 干 操作 从 队列 中 获取 元 素 ， 尾 部 位 置 唯一 
会 更 新 的 情况 是 put() 操作 。 选 择 这 种 模式 可 以 避免 由 于 额外 的 协调 检查 而 造成 的 不 必 
要 的 性 能 损失 ， 而 其 他 两 种 类 型 的 队列 都 需要 这 种 检查 。 






























































ManyTooneConcurrentArrayQueue 
另外 ， 如 果 我 们 选择 许多 生产 者 ， 那 就 需要 对 尾部 位 置 的 更 新 进行 额外 的 控制 〈 因 为 这 个 
位 置 可 能 已 经 被 另 一 个 生产 者 更 新 了 )。 在 while 循环 中 使 用 Unsafe.compareAndSwapLong， 
直到 尾部 被 更 新 ， 可 以 确保 以 无 锁 方 式 安 全 地 更 新 队列 尾部 。 此 外 ， 因 为 我 们 保证 只 
一 个 消费 者 ， 所 以 在 消费 者 方面 就 不 存在 这 样 的 竞争 。 
ManyToManyConcurrentArrayQueue 
最 后 ， 如 果 我 们 选择 许多 生产 者 和 消费 者 ， 那 就 需要 对 头 部 或 尾部 位 置 的 更 新 进行 协调 控 
制 。 这 个 级 别 的 协调 和 控制 是 通过 一 个 包 于 着 compareAndswap 的 while 循环 来 实现 的 。 在 
所 有 选择 中 ， 这 里 需要 的 协调 是 最 多 的 ， 所 以 只 有 在 需要 这 种 级 别 的 安全 性 时 才 会 用 到 。 
4. 环形 缓冲 区 
Agrona 提供 了 org.agrona.concurrent.RingBuffer， 作 为 交换 二 进 制 编码 消息 的 接口 ， 用 
于 进程 间 通 信 。 它 使 用 一 个 DirectBuffer 来 管理 堆 外 消息 的 存储 。 借 助 源 代码 中 的 一 些 
ASCI 技巧 ， 我 们 可 以 看 到 消息 被 存储 在 一 个 RecordDescriptor 结构 中 : 



























































0 1 网 3 

天 01234567890123456789012345678901 
着- 十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
* |RI Length | 
+ 
| Type | 
4 + 
* | Encoded Message Ba 
. | 
* 


Agrona 中 实现 了 两 种 类 型 的 环形 缓冲 区 : OneToOneRingBuffer 和 ManyTo0neRingBuffer。 写 操 
作 接 收 一 个 源 缓冲 区 ， 将 消息 写 入 当前 缓冲 区 ， 而 读 操作 是 在 一 个 onMessage 风格 的 处 理 程 
序 上 回调 。 当 许多 生产 者 要 在 ManyToOneRingBuffer 中 写 入 时 ， 可 以 调用 Unsafe.storeFence() 
来 手动 控制 内 存 同步 。 存 储 屏 障 “ 保 证 在 这 个 屏障 之 前 的 所 有 写 操 作 都 已 经 完成 ”。 


Agrona 有 许多 底层 结构 和 有 趣 的 方面 。 如 果 你 想 构 建 的 软件 系统 也 很 注重 细 闻 ， 那 这 个 项 
目 就 是 一 个 很 好 的 实验 起 点 。 

还 有 其 他 项 目 (如 JCTools) 也 提供 了 并 发 队列 结构 的 变种 。 除 非 有 非常 特殊 的 使 用 场景 
要 求 ， 否 则 开发 人 员 不 应 该 忽视 这 些 开 源 库 的 存在 ， 应 该 避免 重新 发 明 轮 子 。 















































14.3.2 Simple Binary Encoding 


SBE 是 为 了 满足 适合 低 延迟 性 能 的 二 进 制 编码 表示 的 需求 而 开发 的 ， 该 编码 专门 为 金融 系 
统 中 使 用 的 FIX 协议 创建 。 

Simple Binary Encoding (SBE) 提供 了 与 其 他 二 进 制 编码 不 同 的 特性 ， 并 针对 低 延 

迟 进行 了 优化 。 这 种 新 的 FPL 二 进 制 编 码 是 对 现 有 的 唯一 二 进 制 编 码 (FAST) 

的 补充 ， 该 编码 于 2005 年 开发 ， 致 力 于 降低 市 场 数据 的 带宽 利用 率 。 
Simple Binary Encoding 规范 发 布 候选 版 本 1 











高 性 能 日 志和 消息 系统 | 291 

















SBE 与 应 用 层 有 关 ， 用 于 编码 和 解码 消息 ， 所 使 用 的 缓冲 区 来 自 Agrona。SBE 经 过 优化 ， 
支持 通过 这 些 数 据 结 构 来 传递 低 延 迟 消 息 而 不 会 触发 垃圾 收集 ， 同 时 优化 内 存 访问 等 问 
题 。 它 是 专门 为 高 频 交 易 环 境 设计 的 ， 在 这 种 环境 下 ， 往 往 必须 在 微 秒 或 纳 秒 的 时 间 内 就 
对 市 场 事件 做 出 反应 。 


与 使 用 Google Protocol Buffers 和 ASN.1 来 编码 FIX 的 这 种 竞争 方案 相 比 ， 
SBE 编码 仅仅 是 在 FIX 协议 组 织 内 定义 的 。 




















高 频 交 易 的 另 一 个 关键 的 非 功 能 性 要 求 是 操作 应 该 始终 保持 快速 。 本 书 的 一 个 作者 曾 亲眼 
看 见 过 一 个 系统 ， 它 以 相当 高 的 吞吐 量 处 理 消息 ， 但 是 突然 因为 一 个 垃圾 收集 错误 暂停 了 
两 分 钟 。 在 低 延 迟 应 用 程序 中 ， 这 种 暂停 是 完全 不 能 接受 的 ， 完 全 避免 垃圾 收集 是 保证 性 
能 一 致 的 方法 之 一 。 这 些 类 型 的 性 能 问题 可 以 通过 浸泡 测试 (soak test) 或 其 他 长 期 运行 
的 性 能 检测 来 识别 。 

低 延 迟 应 用 程序 的 目标 是 尽 可 能 地 提高 应 用 程序 的 性 能 。 这 可 能 会 导致 一 场 “ 军 备 竞赛 ”， 
在 这 场 竞 赛 中 ， 相 互 竞争 的 交易 公司 的 团队 试图 在 减少 交易 应 用 程序 关键 路 径 的 延迟 方面 
超越 对 方 。 


SBE 的 作者 提出 了 一 系列 的 设计 原则 来 反映 这 些 问 题 ， 并 解释 了 他 们 的 想法 。 下 面 几 贡 将 
探讨 一 些 设计 决策 以 及 它们 与 低 延 迟 系 统 设 计 的 关系 。 

1. 免 复 制 和 原生 类 型 映射 

复制 是 有 成 本 的 ， 几 是 用 C++ 做 过 编程 的 人 可 能 都 会 时 常 被 人 发 现 不 小 心 复制 了 对 象 。 当 
对 象 很 小 的 时 候 ， 复 制 成 本 并 不 高 ， 但 是 随 着 对 象 大 小 的 增加 ， 复 制 的 成 本 也 会 增加 。 
高 级 别 的 Java 程序 员 可 能 并 不 总 会 考虑 这 个 问题 ， 因 为 他 们 已 经 习惯 了 使 用 引用 和 自动 
管理 内 存 。SBE 中 的 免 复制 技术 就 是 为 了 确保 在 编码 或 解码 消息 时 不 使 用 中 间 缓 冲 区 而 
设计 的 。 

然而 ， 直 接 向 底层 缓冲 区 写 入 确实 是 有 设计 成 本 的 ， 因 为 它 不 支持 当前 缓冲 区 无 法 容纳 的 
较 大 的 消息 ， 如 果 要 支持 它们 ， 就 必须 内 置 一 个 协议 来 分 割 消息 并 重新 组 合 。 

当 进 行 免 复 制 设计 时 ， 可 以 原生 映射 到 合理 的 汇编 指令 的 类 型 也 会 有 所 帮助 。 拥 有 一 个 与 
良好 的 汇编 操作 选择 相对 应 的 映射 ， 可 以 极 大 地 提高 字段 检索 的 性 能 。 

2. 稳 态 分 配 

在 Java 中 ,分 配对 象 自然 会 引入 一 个 低 延 迟 应 用 程序 非常 关注 的 问题 。 分 配 本 身 就 需要 
CPU 周期 (即使 是 非常 小 的 周期 ， 比 如 一 次 TLAB 分 配 )， 因 此 就 会 出 现在 使 用 完成 后 删 
除 对 象 的 问题 。 

垃圾 收集 往往 是 全 部 停顿 的 ， 即 使 是 在 大 部 分 情况 下 进行 并 发 工作 的 更 高 级 的 收集 器 也 会 
引入 一 个 暂停 。 虽 然 限制 了 绝对 的 暂停 时 间 ， 但 垃圾 收集 的 过 程 也 会 在 性 能 模型 中 引入 一 


个 有 影响 的 变量 。 
























































似乎 可 以 很 自然 地 认为 C++ 能 帮助 解决 这 个 问题 ， 但 是 分 配 和 回收 机 制 也 会 
引入 问题 。 特 别 是 ， 一 些 内 存 池 可 能 会 采用 某 种 损害 性 能 的 加 锁 机 制 。 








SBE 是 免 分 配 的 ， 因 为 它 在 底层 缓冲 区 之 上 使 用 了 享 元 模式 (flyweight pattern ) 。 

3. 流 式 访问 和 字 对 齐 访问 

在 Java 中 ， 通常 我 们 无 法 控制 对 内 存 的 访问 。 我 们 在 11.1 节 曾 讨论 了 ObjectLayout， 它 建 
议 以 像 C++ 中 向 量 那 样 的 对 齐 方式 来 存储 对 象 。 通 常 Java 中 的 数组 都 是 引用 的 数组 ， 因 
此 无 法 在 内 存 中 按 顺 序 读 取 。 

SBE 被 设计 为 以 向 前 连续 的 方式 对 消息 进行 编码 和 解码 ， 同 时 也 会 进行 正确 的 组 帧 ， 以 支 
持 合理 的 字 对 齐 。 如 果 没 有 合理 的 字 对 齐 ， 那 在 处 理 器 层面 就 会 开始 出 现 性 能 问题 。 

4. 使 用 SBE 

SBE 消息 被 定义 为 说 明 消 息 布局 的 XML 模式 文件 。 虽 然 现 在 XML 普遍 不 受 大 家 喜欢 ， 
但 该 模式 确实 为 精确 说 明 消 息 接 口 提供 了 一 个 很 好 的 机 制 。XML 在 Eclipse 和 Intellij 等 
IDE 中 也 有 直接 的 工具 链 支 持 。 

SBE 提供 了 一 个 命令 行 工具 sbe-tooL， 在 给 定 一 个 模式 后 ， 它 可 以 生成 相应 的 编码 器 和 解 
码 器 。 其 使 用 步骤 如 下 : 


# Fork or clone the project 
git clone git@github.com:real-logic/simple-binary-encoding.git 





















































# Build the project using your favorite build tool 
gradle 


# The sbe-tool will be created in 
sbe-tool/build/libs 


# Run the sbe-tool with a schema-a sample schema is provided at 

# https://github.com/real-logic/simple-binary-encoding/blob/master/ 
sbe-samples/src/main/resources/example-schema.xml 

java -jar sbe-tool-1.7.5-SNAPSHOT-all.jar message-schema.xml 


# When this command completes it will generate a series of .java files in the 
baseline directory 


$ ls 

BooleanType.java GroupSizeEncodingEncoder .java 
BoostType.java MessageHeaderDecoder .java 
BoosterDecoder .java MessageHeaderEncoder .java 
BoosterEncoder .java MetaAttribute. java 

CarDecoder .java Model .java 

CarEncoder .java OptionalExtrasDecoder .java 
EngineDecoder .java OptionalExtrasEncoder .java 
EngineEncoder .java VarStringEncodingDecoder .java 
GroupSizeEncodingDecoder .java VarStringEncodingEncoder .java 


重要 的 是 要 记 住 ，SBE 协议 的 核心 部 分 之 一 是 消息 必须 按 顺 序 读 取 ， 也 就 是 说 本 质 上 要 按 
照 模 式 中 的 定义 来 读 取 。 关 于 如 何 开始 使 用 这 些 消息 ， 其 教程 可 参阅 SBE Java Users Guide。 
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虽然 这 里 演示 的 是 在 命令 行 中 使 用 SBE 工具 ， 但 更 为 常见 的 使 用 场景 可 能 是 
将 其 集成 到 构建 流水 线 中 。 











14.3.3 Aeron 


Aeron 是 我 们 要 探讨 的 Real Logic 软件 栈 中 的 最 后 一 个 产品 。 将 其 放 在 最 后 应 该 并 不 奇怪 ， 
因为 它 是 建立 在 SBE 和 Agrona 的 基础 之 上 的 。Aeron 是 一 个 为 Java 和 C++ 编写 的 UDP 
(用 户 数据 报 协议 ) 单 播 、 多 播 和 IPC (进程 间 通 信 ) 消息 传输 。 它 与 媒体 层 无 关 ， 因 此 可 
以 很 好 地 与 InfiniBand 一 起 工作 。 


本 质 上 ， 这 是 一 个 通用 的 、 包 罗 万 象 的 消息 传输 协议 ， 使 用 它 可 以 让 处 于 同一 台 机 器 上 或 
者 跨 网 络 的 应 用 程序 通过 IPC 相互 对 话 。Aeron 被 设计 为 具有 最 大 可 能 的 吞吐 量 ， 旨 在 实 
现 最 低 和 最 为 可 预测 的 延迟 结果 (一 致 性 很 重要 ， 正 如 我 们 在 14.3.2 节 所 讨论 的 ) 。 本 节 
将 探讨 Aeron API 以 及 一 些 设计 决策 。 


1. 为 什么 要 构建 新 的 东西 

之 所 以 要 构建 像 Aeron 这 样 的 一 个 新 产品 ， 主 要 原因 之 一 是 市 场 上 的 一 些 产品 已 经 变 得 更 
加 通用 。 这 种 情况 并 不 是 不 好 ， 而 是 当 客 户 要 求 某 些 功能 时 (而 且 通 常 是 为 这 些 功能 付 
费 )， 就 会 把 产品 推 向 某 个 特定 的 方向 ， 从 而 导致 产品 可 能 会 变 得 腔 肿 ， 提 供 的 功能 也 会 
比 预 想 的 多 很 多 ， 甚 至 可 能 成 为 框架 。 

用 底层 的 Java 机 制 构建 消息 系统 是 非常 有 趣 的 ， 它 可 能 是 向 公司 或 者 社区 内 部 的 业余 兴趣 
项 目 迈 出 的 第 一 步 。 淤 在 的 问题 是 ， 从 低 延 迟 的 角度 来 看 ， 对 所 需 的 功能 缺乏 经 验 会 使 这 
些 兴 趣 项 目 很 难 应 用 ， 也 很 难为 生产 环境 做 好 准备 。 确 保 产 品 从 一 开始 就 是 为 低 延 迟 应 用 
程序 而 构建 的 ， 同 时 又 不 牺牲 其 性 能 ， 仍 然 是 一 个 艰难 的 挑战 。 

正如 本 章 所 强调 的 ，Aeron 背后 强大 的 设计 原则 是 它 是 作为 一 个 组 件 库 而 构建 的 ， 因 此 ， 
你 不 需要 受制 于 一 个 框架 ， 如 果 只 需要 一 个 底层 的 数据 结构 ， 那 么 Agrona 就 会 提供 ， 不 
需要 引入 许多 其 他 的 依赖 关系 。 


2. 发 布 者 
在 深入 讨论 Aeron 之 前 , 了解 一 下 图 14-4 中 描述 的 一 些 更 高 级 别 的 组 件 是 很 有 用 的 。 
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确切 的 内 容 如 下 。 


媒体 (media) 是 指 Aeron 所 基于 的 通信 机 制 , 例如 UDP、IPC、InfiniBand 或 其 他 媒介 。 

重点 是 Aeron 作为 一 个 客户 端 可 以 从 中 抽象 出 来 。 

媒体 驱动 程序 (media driver) 指 的 是 媒体 和 Aeron 之 间 的 连接 ， 支 持 提供 配置 并 与 该 传 

输 进 行 通 信 。 

管理 者 (conductor) 负责 管理 ， 比 如 设置 缓冲 区 以 及 监听 新 的 订阅 者 和 发 布 者 的 请 求 。 

它 还 将 寻找 否定 应 答 (negative acknowledgment，NAK) 并 安排 重 传 。 这 样 发 送 者 和 接 

收 者 只 需 处 理 移动 字 节 就 可 以 使 生 吐 量 最 大 化 。 

发 送 者 (sender) 从 生产 者 处 读 取 数 据 并 通过 套 接 字 发 送出 去 。 

接收 者 (receiver) 从 套 接 字 中 读 取 数 据 ， 并 将 甚 转发 到 相应 的 通道 和 会 话 中 。 
媒体 驱动 程序 通常 是 一 个 单独 的 进程 ， 提 供用 于 发 送 和 接收 消息 的 缓冲 区 。 在 不 同 的 硬件 
部 署 上 可 以 使 用 不 同 的 媒体 驱动 程序 进行 优化 ，MediaDriver .Context 就 是 为 媒体 驱动 程序 
设置 优化 的 配置 。 媒 体 驱动 程序 也 可 以 在 同一 个 进程 中 以 嵌入 的 方式 启动 ， 而 被 从 入 的 进 
程 则 通过 一 个 上 下 文 或 系统 属性 进行 配置 。 要 局 动 嵌 入 式 媒 体 驱 动 程 序 ， 可 以 按照 以 下 方 
式 操作 : 

final MediaDriver driver = MediaDriver.launch(); 
Aeron 应 用 程序 需要 以 发 布 者 或 订阅 者 的 身份 连接 到 媒体 驱动 程序 ，Aeron 类 使 之 变 得 相当 
直接 。Aeron 还 有 一 个 内 部 的 Context 类 ， 可 用 于 配置 设置 ; 

final Aeron.Context ctx = new Aeron.Context(); 
然后 Aeron 可 以 连接 一 个 Publication， 通 过 给 定 的 通道 和 流 进行 通信 。 因 为 Publication 
实现 了 AutoClosable 接口 ， 所 以 当 try 块 执行 完毕 后 ， 它 将 被 自动 清理 : 

try (Publication publication = aeron.addPublication(CHANNEL, STREAM_ID)) 

{0 
要 发 送 一 条 消息 ， 就 要 向 发 布 者 提供 一 个 缓冲 区 ， 并 通过 提供 操作 (offer()) 的 结果 来 确 
定 消息 的 状态 。Publication 有 一 系列 代表 不 同 错误 的 Long 类 型 的 常量 ， 可 以 与 offer() 
方法 的 结果 进行 比较 : 

final Long result = publication.offer(BUFFER, 0, messageBytes.length); 
发 送 消 息 就 是 这 么 简单 ， 但 要 使 其 发 挥 作用 ， 就 应 该 让 订阅 者 监听 同一 个 媒体 驱动 程序 。 
3. 订阅 者 
订阅 者 的 启动 与 发 布 者 的 类 似 ， 二 者 都 需要 访问 媒体 驱动 程序 ， 然 后 连接 Aeron 客户 端 。 
消费 者 的 组 件 与 图 14-4 所 示 的 图 互 为 镜像 。 消 费 者 注册 一 个 回调 函数 ， 收 到 消息 时 就 会 
触发 : 


final FragmentHandLer fragmentHandler = 
SamplesUtil.printStringMessage(STREAM_ID); 

































































try (Aeron aeron = Aeron.connect(ctx); 
Subscription subscription = aeron.addSubscription(CHANNEL, STREAM_ID)) 
{ 
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SamplesUtil.subscriberLoop(fragmentHandler, 
FRAGMENT_COUNT_LIMIT, running).accept(subscription); 
} 


这 些 示例 只 探讨 了 基本 的 设置 ，Aeron 项 目 中 还 有 些 示例 探索 了 更 高 级 的 设置 。 


14.3.4 Aeron 的 设计 

Martin Thompson 在 Strange Loop 的 演讲 中 对 Aeron 进行 了 很 好 的 介绍 ， 同 时 说 明了 其 构建 

的 原因 。 本 节 将 结合 公开 的 文档 ， 探 讨 视 频 中 所 讨论 的 一 些 内 容 。 

1. 传输 需求 

Aeron 是 用 于 消息 的 OSI 第 4 层 传输 ， 因 此 它 有 一 系列 必须 承担 的 责任 。 

排序 ( ordering ) 

因为 从 更 底层 传输 中 接收 的 数据 包 是 乱 序 的 ， 所 以 Aeron 需要 负责 对 乱 序 的 消息 进行 重 

新 排序 。 

可 靠 性 (reliability ) 

当 因数 据 丢失 而 出 现 问 题 时 ，Aeron 就 必须 提出 重新 传输 数据 的 请 求 。 在 对 旧 数 据 的 请 
求 正在 进行 时 ， 接 收 新 数据 的 过 程 不 应 受到 阻碍 。 这 里 的 可 靠 性 指 的 是 连接 级 的 可 靠 
性 ， 而 不 是 会 话 级 的 可 靠 性 (例如 ， 多 个 进程 重启 时 的 容错 能 力 )。 

背 压 (back pressure ) 


订阅 者 在 大 流量 的 场景 中 将 面临 压力 ， 所 以 服务 必须 支持 流量 控制 和 背 压 措施 。 





















































拥塞 ( congestion ) 
这 是 在 网 络 饱和 时 会 出 现 的 问题 ， 但 如 果 正 在 构建 一 个 低 延迟 应 用 程序 ， 那 它 就 不 应 该 
成 为 主要 问题 。Aeron 提供 了 一 个 激活 拥塞 控制 的 可 选 功能 ， 使 用 低 延迟 网 络 的 用 户 可 
以 关闭 它 ， 对 其 他 流量 敏感 的 用 户 可 以 打开 它 。 拥 塞 控 制 会 影响 在 最 佳 路 径 中 拥有 足够 
网 络 容量 的 产品 。 

多 路 复 用 (mnultiplexing ) 
传输 应 该 能 在 不 影响 整体 性 能 的 情况 下 ， 在 一 个 通道 上 处 理 多 个 信息 流 。 


2. 延迟 和 应 用 原则 

Aeron 是 在 八大 设计 原则 的 驱动 下 设计 的 ， 它 的 维基 页 面 简要 介绍 了 这 些 原则 。 

在 稳 态 运行 情况 下 无 垃圾 收集 ( garbage-free in steady-state running ) 
垃圾 收集 暂停 是 造成 Java 应 用 程序 中 的 延迟 和 不 确定 性 的 一 个 主要 原因 。Aeron 被 设计 
为 能 够 一 直 保 持 稳定 状态 以 避免 垃圾 收集 ， 因 此 它 可 以 包含 在 同样 遵守 这 一 设计 决策 的 
应 用 程序 中 。 

在 消息 路 径 下 应 用 智能 批 处 理 (apply smart batching in the message path ) 
智能 批 处 理 (smart batching) 是 一 个 算法 ， 为 帮助 处 理 收 到 突 发 消息 时 的 情况 而 设计 。 
在 许多 消息 系统 中 ， 我 们 不 能 假定 一 天 到 晚 都 能 以 稳定 的 速度 接收 消息 ， 大 多 数 情况 
下 会 基于 业务 的 事件 ， 以 突 发 的 方式 接收 消息 。 如 果 在 处 理 一 条 信息 时 接收 到 另 一 条 信 
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息 ， 那 它 也 可 以 被 捆绑 到 同一 个 网 络 包 中 ， 这 取决 于 容量 。 通 过 使 用 适当 的 数据 结构 ， 
Aeron 可 以 使 这 种 批 处 理 在 不 阻碍 生产 者 对 共享 资源 的 写 入 的 情况 下 运行 。 
在 消息 路 径 下 的 无 锁 算法 (lock-free algorithms in the message path ) 
加 锁 会 引入 竞争 ， 导 致 线程 可 能 在 其 他 线程 运行 时 被 阻 寨 ， 甚 至 在 锁 上 停顿 和 唤醒 都 会 
使 应 用 程序 变 慢 。 避 免 加 锁 可 以 防止 由 锁 导 致 的 速度 下 降 。 
在 消息 路 径 下 的 非 阻塞 IO (nonblocking IO in the message path ) 
阻塞 IO 会 阻塞 一 个 线程 ， 而 且 唤 醒 的 成 本 很 高 ， 但 使 用 非 阻塞 IO 可 以 避免 这 些 
成 本 。 
在 消息 路 径 下 没有 异常 情况 〈no exceptional cases in the message path ) 
应 用 程序 的 大 部 分 时 间 用 于 执行 主要 场景 ， 而 不 是 较 小 的 边界 场景 。 边 界 场景 应 该 处 
里 ， 但 不 能 以 牺牲 主要 场景 的 执行 速度 为 代价 。 


应 用 单一 写 者 原则 (apply the single writer principle ) 
正如 我 们 在 14.3.1 市 讨论 的 ManyTo0neConcurrentArrayQueue， 拥 有 多 个 写 者 就 会 涉及 对 
队列 访问 进行 高 度 的 控制 和 协调 ， 但 是 建立 单一 的 写 者 就 可 以 大 大 简化 这 个 操作 ， 并 减 
少 写 入 时 的 竞争 。Aeron 的 发 布 者 是 线程 安全 的 ， 支 持 多 个 写 者， 但 它 的 订阅 者 不 是 线 
程 安全 的 ， 所 以 你 想 订 阅 的 每 个 线程 都 需要 一 个 写 者 。 
首选 非 共享 状态 (prefer unshared state ) 
单一 写 者 虽然 解决 了 队列 上 的 竞争 问题 ， 但 它 必 须 共 享 可 变数 据 。 在 软件 设计 的 各 个 环 
节 中 保持 私有 或 本 地 状态 都 是 首选 ， 因 为 它 大 大 简化 了 数据 模型 。 
避免 不 必要 的 数据 复制 (avoid unnecessary data copy ) 
正如 我 们 所 提 到 的 ， 虽 然 数据 复制 通常 很 便宜 ， 但 缓存 行 失 效 和 逐 出 其 他 数据 的 可 能 性 
在 Java 和 C++ 中 都 会 引发 问题 。 尽 量 减 少 复制 有 助 于 防止 这 种 意外 搅动 内 存 的 现象 。 
3. Aeron 底 层 是 如 何 工作 的 
为 了 构建 高 效 的 消息 处 理 系统 ， 很 多 现 有 的 协议 引入 了 复杂 的 数据 结构 ， 如 跳 表 (skip 
list)。 主 要 因为 指针 的 间接 性 ， 这 种 复杂 性 导致 系统 具有 不 确定 的 延迟 特性 。 
从 根本 上 说 ，Aeron 创建 了 一 个 复制 的 、 持 久 的 消息 日 志 。 





































































































Martin Thompson 


通过 Aeron， 可 以 用 最 清晰 、 最 简单 的 方式 在 一 个 结构 中 构建 消息 序列 。 这 初 看 上 去 虽然 
不 是 最 为 可 能 的 选择 ， 但 Aeron 大 量 使 用 了 文件 的 概念 。 文 件 是 可 以 跨 感 兴趣 的 进程 共享 
的 结构 ， 通 过 使 用 Linux 的 内 存 映射 文件 功能 ， 可 以 将 所 有 对 文件 的 调用 导向 内 存 ， 而 不 
是 物理 文件 的 写 入 。 


Aeron 默认 映射 到 tmpfs 〈 它 是 像 文件 一 样 挂 载 的 易 失 性 内 存 )， 其 性 能 明显 
优 于 磁盘 内 存 映射 文件 。 
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尾部 指针 用 于 记录 最 后 一 条 消息 的 写 人 人 位置。 图 14-5 演示 了 一 条 消息 已 经 和 它 的 头 部 指针 
一 起 被 写 人 了 当前 的 文件 中 。 











File 


Header 
和 

Header 
和 


Header 
2 


Tail 
{下 二 个 写 大 位 置 ) 





| 








14-5: 被 写 入 文件 的 消息 


这 里 


的 ， 





这 人 
们 怎 
完成 


的 事件 顺序 相当 有 趣 。 尾 部 指针 为 文件 中 的 消息 保留 了 空间 ， 它 的 增 量 操作 是 原子 
因此 写 者 知道 它 所 属 部 分 的 开始 和 结束 位 置 。 


使 这 个 增 量 操作 实现 原子 化 的 内 部 函数 是 在 Java 8 的 关键 补丁 程序 更 新 
(critical patch update，CPU) 中 引入 的 。 











许多 个 写 者 以 无 锁 的 方式 更 新 文件 ， 它 也 是 高 效 建立 文件 写 入 协议 的 原因 。 但 是 我 
么 知道 消息 已 经 写 完 了 呢 ? 头 部 指针 会 在 最 后 以 原子 方式 写 入 文件 来 表明 消息 已 经 


o 





文件 是 持久 性 结构 ， 写 入 后 会 增长 ， 而 且 不 会 突变 。 从 文件 中 读 取 记 录 不 需要 加 锁 ， 因 为 


文件 








只 能 由 一 个 观测 进程 打开 和 读 取 。 但 是 否 可 以 简单 地 拥有 一 个 无 限 增长 的 文件 呢 ? 





这 就 会 带 来 很 多 问题 ， 因 为 它 会 在 之 前 很 好 的 内 存 映射 文件 中 引入 缺 页 错误 和 页 面 搅动 ， 


但 是 
的 文 
以 避 














可 以 通过 3 个 文件 来 解决 这 些 问 题 : active、dirty 和 clean。active 代表 当前 正在 写 入 
件 ，dirty 是 之 前 写 入 的 文件 ，clean 是 下 一 个 要 写 入 的 文件 。 这 些 文件 是 轮流 使 用 的 ， 
免 出 现 由 大 文件 造成 的 延迟 。 
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消息 是 绝对 不 允许 跨 文件 的 。 如 果 消 息 尾 部 超出 了 active 文件 的 末端 ， 那 插入 进程 会 填充 
该 文件 的 剩余 部 分 ， 并 将 消息 写 入 clean 文件 。 从 dirty 文件 中 可 以 永久 地 将 事务 日 志 存 档 
(archive) 并 深度 存储 。 


处 理 缺 失 消息 的 机 制 也 非常 灵活 ， 避 免 了 前 面 提 到 的 跳 表 和 其 他 结构 。 消 息 的 头 部 包含 了 
它 的 排序 信息 ， 当 一 个 消息 被 插入 时 ， 如 果 顺 序 不 对 ， 就 会 给 前 面 的 消息 留 下 一 个 空位 。 
当 缺 失 的 消息 到 达 时 ， 它 就 可 以 被 插入 到 文件 中 的 正确 位 置 。 这 样 就 可 以 得 到 一 系列 不 断 
增加 的 销 息 ， 中 间 不 会 有 空隙 或 其 他 结构 。 从 机 械 共鸣 的 角度 看 ， 将 数据 以 递增 方式 排序 
的 一 个 好 处 是 处 理 起 来 非常 快速 。 


水 位 标志 (watermark) 代表 最 后 收 到 消息 时 的 那个 位 置 。 如 果 水 位 标志 和 尾部 指针 在 一 
段 时 间 内 不 一 样 ， 就 说 明 有 消息 缺失 。 为 了 解决 消息 缺失 ， 系 统 会 发 送 NAK 来 请 求 它 们 。 
可 以 为 一 条 消息 发 送 一 个 NAK, 一 旦 收 到 消息 ，NAK 就 会 被 填充 。 

这 个 协议 有 个 有 趣 的 副作用 ， 即 基于 streamId、sessionId、termId 和 termoffset 所 收 到 
的 每 条 消息 都 有 一 个 独特 的 方式 来 识别 消息 中 的 字 节 。 我 们 可 以 使 用 Aeron Archive 来 录 
制 和 重 放 消 息 流 ， 并 且 通 过 结合 存档 和 这 种 独特 的 表示 方式 ， 可 以 唯一 地 识别 历史 上 的 所 
有 消息 。 


日 志文 件 是 Aeron 能 够 保持 速度 和 状态 的 核心 ， 甚 简单 优雅 的 设计 ， 使 Aeron 能 够 与 成 熟 
的 (昂贵 的 ) 多 播 产 品 媲美 ， 在 很 多 情况 下 甚至 能 击败 它们 。 


14.4 ”小 结 


日 志 记 录 是 所 有 生产 级 应 用 程序 中 不 可 或 缺 的 一 部 分 ， 所 使 用 的 日 志 记 录 器 的 类 型 对 整体 
的 应 用 程序 性 能 有 非常 大 的 影响 。 当 涉及 日 志 记录 时 ， 重 要 的 是 要 将 应 用 程序 当 作 一 个 整 
体 而 不 只 是 执行 日 志 记 录 语 句 来 考虑 ， 同 时 注意 它 对 其 他 JVM 子 系统 (如 线程 使 用 和 垃 
圾 收集 ) 的 影响 。 


本 章 包含 一 些 低 延迟 库 的 简单 例子 ， 从 最 底层 开始 ， 一 直到 一 个 完整 的 消息 系统 实现 。 显 
然 ， 应 该 把 低 延 迟 系统 的 目的 和 目标 应 用 于 整个 软件 栈 ， 从 最 底层 的 队列 一 直到 更 高 层次 
的 应 用 。 低 延迟 、 高 否 吐 量 的 系统 需要 大 量 的 思考 、 经 验 和 控制 ， 这 里 讨论 的 许多 开源 项 
目 是 基于 大 量 丰 富 的 经 验 构 建 起 来 的 。 如 果 你 需要 创建 一 个 新 的 低 延 迟 系统 ， 只 要 能 从 底 
层 设 计 目 标 一 直 坚 持 到 顶层 应 用 程序 ， 这 些 项 目 都 将 为 你 方 省 几 天 甚至 儿 周 的 开发 时 间 。 


本 章 开始 提出 的 一 个 问题 是 Java 和 JVM 可 以 在 多 大 程度 上 应 用 于 高 吞吐 量 的 应 用 程序 。 
使 用 任何 语言 编写 低 延 迟 、 高 吞吐 量 的 应 用 程序 都 是 非常 困难 的 ， 但 是 在 所 有 可 用 的 语言 
中 ，Java 提供 了 最 好 的 工具 和 生产 效率 。 此 外 ，Java 和 JVM 确实 增加 了 另 一 个 抽象 层次 ， 
我 们 需要 对 其 进行 管理 ， 并 在 某 些 情况 下 加 以 规避 。 同 时 ， 考 虑 硬件 、JVM 性 能 和 更 底层 
的 问题 也 非常 重要 。 

我 们 在 日 常 的 Java 开发 工作 中 一 般 不 会 遇 到 这 些 较为 底层 的 问题 。 使 用 本 章 所 讨论 的 较 新 
的 免 分 配 的 日 志 库 、 数 据 结构 和 消息 传递 协议 ， 可 以 大 大 降低 进入 门槛 ， 因 为 很 多 复杂 的 
问题 已 经 被 开源 社区 解决 了 。 
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Java 9 以 及 Java 的 未 来 方向 


在 编写 本 书 时 ，Java 9 还 处 于 积极 开发 中 。 新 版 本 包含 很 多 与 性 能 相关 的 特性 ， 以 及 与 








Java/JVM 应 用 程序 工程 师 相 关 的 增强 。 





本 章 第 一 部 分 研究 Java 9 中 性 能 工程 师 应 该 了 解 的 有 关 平台 新 增 和 改动 的 地 方 。 


事实 上 ， 对 于 大 多 数 开发 人 员 而 言 ，Java 9 确实 是 由 “模块 和 其 他 一 切 ” 组 成 的 。 正 如 
Java 8 是 关于 Lambda 及 其 相关 部 分 ( 流 、 上 默认 方法 以 及 有 关 函 数 式 编程 的 一 些小 的 方面 ) 


的 ， 所 以 可 以 认为 Java 9 主要 是 关于 模块 的 。 


模块 是 一 种 构建 和 部 署 软件 的 新 方式 ， 不 适合 采用 零碎 散打 的 方式 进行 处 理 。 虽 然 它们 代 
表 了 一 种 构建 架构 良好 的 应 用 程序 的 现代 方式 ， 但 无 论 如 何 ， 团 队 和 项 目 可 能 需要 一 段 时 











间 才 能 看 到 采用 模块 的 长 期 效益 。 就 目的 而 言 ， 模 块 并 不 具有 任何 实际 性 能 上 的 意义 ， 因 


此 我 们 不 会 尝试 对 其 进行 任何 详细 的 讨论 ， 而 是 将 重点 放 在 较 小 但 与 性 能 相关 的 变化 上 。 


Paul Bakker 合 著 的 《Java 9 模块 化 开发 》。 





本 章 的 大 部 分 内 容 是 对 未 来 的 讨论 ， 因 为 在 编写 本 
Java 平台 生态 系统 有 一 些 正在 进行 的 项 目 ， 这 些 项 目 








对 Java 9 模块 感 兴趣 的 读者 ， 应 当 查阅 相关 的 参考 资料 ， 比 如 Sander Mak 和 





区 时 ， 未 来 的 这 些 方向 已 经 存在 了 。 
有 可 能 从 根本 上 改变 JVM 应 用 程序 





的 性 能 格局 。 作 为 总 结 ， 本 书 最 后 将 介绍 一 下 这 些 项 目 ， 并 了 解 它们 与 Java 性 能 专业 人 员 





的 关系 。 
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15.1 Java 9 中 小 的 性 能 增强 


本 节 将 探讨 Java 9 中 与 性 能 相关 的 增强 。 虽 然 其 中 有 些 增强 非常 小 ， 但 对 某 些 应 用 程序 来 
说 可 能 意义 重大 。 我 们 将 重点 讨论 如 下 这 些 变 化 : 

。 分 段 式 代 码 缓存 

。 紧凑 的 字符 串 

。 C2 编译 器 的 改进 

。 G1 的 变化 


15.1.1 “分 段 式 代码 缓存 

Java 9 带 来 的 一 个 改进 是 将 代码 缓存 分 割 成 单独 的 区 域 ， 分 别 用 于 : 

。 非 方法 代码 ， 如 解释 器 ; 

。 齐 析 过 的 代码 (来 自 客 户 端 编译 器 的 级 别 2 和 级 别 3 代码 ) ; 

。 未 剖析 的 代码 (级 别 1 和 级 别 4)。 

这 应 该 可 以 减少 清扫 时 间 ( 非 方法 区 域 不 需要 清扫 )， 对 于 完全 优化 的 代码 也 能 有 更 好 的 局 
部 性 。 分 段 式 代码 缓存 的 缺点 是 在 其 他 区 域 仍 有 空间 的 情况 下 ， 一 个 区 域 可 能 会 被 填 满 。 


15.1.2 ”紧凑 的 字符 串 

在 Java 中 ， 字 符 串 的 内 容 总 是 以 char[] 的 形式 存储 。 由 于 char 是 一 个 16 位 的 类 型 ， 
此 用 于 存储 ASCII 字符 串 的 空间 大 约 是 实际 所 需要 的 两 倍 。Java 平台 一 直 把 这 种 开销 作为 
简化 Unicode 处 理 而 值得 付出 的 代价 。 

Java 9 提供 了 紧凑 的 字符 串 ， 可 以 按 字符 串 进行 优化 。 如 果 这 个 字符 串 可 以 用 Latin-1 表 
示 ， 那 么 它 会 被 表示 为 一 个 字 节 数组 (其 中 的 字 节 被 理解 为 对 应 的 Latin-l 字符 )， 这 就 节 
省 了 用 char 表示 时 无 意义 的 、 内 容 为 零 的 字 节 。 在 Java 9 String 类 的 源 代码 中 ， 变 化 看 
起 来 是 这 样 的 : 


private final byte[] value; 



























































/** 

* The identifier of the encoding used to encode the bytes in 

* {@code value}. The supported values in this implementation are 
* 


* LATIN1 
* UTET6 
* 
* QimpLNote This field is trusted by the VM, and is a subject to 
* constant folding if String instance is constant. Overwriting this 
* field after construction will cause problems. 
* 
/ 


private final byte coder; 
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static final byte LATIN1 = 0; 
static final byte UTF16 = 


在 Java 9 中 ，value 字段 现在 是 byte[] ， 而 不 是 像 早期 版 本 中 的 char[]。 


可 以 通过 传递 -XX: -CompactStrings 或 -XX:+CompactStrings (默认 值 ) 来 关 
闭 或 打开 该 功能 。 








对 于 那些 堆 非 常 大 ， 而 且 其 中 包含 大 量 仅 为 Latin-1 (或 ASCII) 的 字符 串 数 据 的 应 用 程 
序 ， 比 如 ElasticSearch、 缓 在 和 其 他 相关 组 件 ， 这 一 变化 的 影响 最 为 显著 。 对 于 这 些 应 用 
程序 来 说 ， 仪 仅 因 为 这 个 改进 ， 可 能 就 值得 迁移 到 Java 9 运行 时 。 


15.1.3 新 的 字符 串 连接 
考虑 这 段 简单 的 Java 代码 : 


public class Concat { 
public static void main(String[] args) { 
String s = "("+ args[0] + " : "+ args[1] +")"; 
System.out.println(s); 


} 














} 


从 Java 5 开始 ， 这 个 语言 特性 在 去 掉 语法 糖 之 后 ， 就 变 成 了 一 系列 涉及 StringBuilder 类 
型 的 方法 调用 。 这 会 生成 相当 多 的 字 市 码 。 


public static void main(java.lang.String[]); 


Code: 
0: new #2 // class java/lang/StringBuilder 
3: dup 
4: invokespecial #3 // Method java/lang/StringBuilder."<init>":()V 
Ts de #4 // String ( 
9: invokevirtual #5 // Method java/lang/StringBuilder .append: 
// (Ljava/lang/String;)Ljava/lang/StringBuilder; 
12: aload 0 
13: iconst_ 0 
14: aaload 
15: invokevirtual #5 // Method java/lang/StringBuilder .append: 
// (Ljava/lang/String;)Ljava/lang/StringBuilder; 
18: ldc #6 // String 
20: invokevirtual #5 // Method java/lang/StringBuilder .append: 
// (Ljava/lang/String;)Ljava/lang/StringBuilder; 
23: aload_0 
24: iconst_1 
25: aaload 
26: invokevirtual #5 // Method java/lang/StringBuilder .append: 
// (Ljava/lang/String;)Ljava/lang/StringBuilder; 
29: ldc #7 // String ) 
31: invokevirtual #5 // Method java/lang/StringBuilder .append: 


// (Ljava/lang/String;)Ljava/lang/StringBuilder; 
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34: invokevirtual #8 // Method java/lang/StringBuilder.toString: 
// ()Ljava/Lang/String; 


37: astore_1 

38: getstatic #9 // Field java/lang/System.out: 
// Ljava/io/PrintStream; 

41: aload_1 

42: invokevirtual #10 // Method java/io/PrintStream.println: 
// (Ljava/lang/String;)V 

45: return 


然而 在 Java 9 下 ， 编 译 器 生成 了 完全 不 同 的 字 市 码 : 


public static void main(java.Lang.String[]); 
Code: 
0: aload 0 
1: iconst 0 
2: aaload 
3: aload_0 
4: iconst 1 
5: aaload 
6: invokedynamic #2, 0 // InvokeDynamic #0:makeConcatWithConstants: 
// (Ljava/lang/String;Ljava/lang/String;) 
// Ljava/lang/String; 
11: astore_1 
12: getstatic #3 // Field java/lang/System.out: 
// Ljava/io/PrintStream; 


15: aload 1 

16: invokevirtual #4 // Method java/io/PrintStream.println: 
// (Ljava/lang/String;)V 

19: return 


这 依赖 于 invokedynamic， 我 们 曾 在 9.1.1 市 中 提 过 。 通 过 查看 javap 命令 verbose 选项 的 
输出 ， 可 以 看 到 常量 池 中 的 引导 (bootstrap) 方法 。 
0: #17 REF_invokeStatic java/lang/invoke/StringConcatFactory. 
makeConcatWithConstants: (Ljava/lang/invoke/MethodHandles$Lookup;Ljava/ 


lang/String;Ljava/lang/invoke/MethodType;Ljava/lang/String; 
[Ljava/Tlang/Object; )Ljava/lang/invoke/Callsite; 


这 使 用 了 StringConcatFactory 中 的 一 个 名 为 makeConcatWithConstants() 的 工厂 方法 来 产 
生 一 个 用 于 字符 串 连 接 的 具体 手段 。 这 种 技术 可 以 使 用 许多 不 同 的 策略 ， 包 括 为 一 个 新 的 
自 定义 方法 编写 字 节 码 。 它 在 某 些 方面 类 似 于 使 用 预 处 理 语句 (prepared statement) 来 执 
行 SQL,， 而 不 是 简单 的 字符 串 装 配 。 


这 个 小 的 变化 预计 不 会 对 许多 应 用 程序 的 整体 性 能 产生 很 大 的 影响 。 然 而 这 一 变化 确实 表 
明 invokedynamic 有 更 广泛 的 应 用 ， 也 说 明了 平台 发 展 的 大 致 方向 。 


15.1.4 C2 编译 器 的 改进 


C2 编译 器 现在 已 经 相当 成 熟 ， 而 且 人 们 ( 像 Twitter 等 公司 ， 甚 至 像 Cliff Click 等 专家 ) 
普遍 认为 ， 在 当前 的 设计 中 不 太 可 能 再 有 大 的 改进 ， 这 意味 着 任何 改进 必然 都 是 边 边 角 角 
的 。 然 而 ， 使 用 现代 CPU 上 的 单 指令 多 数据 流 (SIMD) 扩展 有 可 能 带 来 更 好 的 性 能 。 



































Java 9 以 及 Java 的 未 来 方向 | 303 





与 其 他 编程 环境 相 比 ， 由 于 以 下 这 些 平 台 特 性 ，Java 和 JVM 在 挖 气 这 些 潜 能 方面 处 于 有 
利 地 位 : 
。 字 市 码 是 平台 无 关 的 ， 
。 JVM 在 启动 时 执行 CPU 探测 ， 所 以 它 知 道 硬 件 在 运行 时 的 执行 能 力 ，; 
。 JIT 编译 是 动态 生成 代码 ， 所 以 它 可 以 使 用 主机 上 所 有 可 用 的 指令 。 
正如 10.7 节 所 讨论 的 ， 这 些 改进 需要 靠 虚拟 机 内 部 函数 来 实现 。 

如 果 HotSpot 虚拟 机 用 手写 的 汇编 代码 或 手写 的 编译 器 中 间 语 言 (一 种 编译 器 内 

部 机 制 ) 来 代替 被 注解 的 方法 以 提高 性 能 ， 束 可 以 说 该 方法 被 内 部 化 了 。 

一 一 @HotSpotIntrinsicCandidate JavaDoc 

HotSpot 已 经 支持 一 些 x86 SIMD 指令 ， 包 括 : 


。 Java 代码 的 自动 向 量化 ， 
。 C2 中 的 超 字 优 化 (superword optimization) 能 从 顺序 代码 中 推导 出 SIMD 代码 ; 
。 JVM SIMD 内 部 函数 ， 包 括 数 组 复制 、 填 充 和 比较 。 


Java 9 版 本 包含 了 一 些 已 修复 的 问题 ， 为 了 更 充分 地 利用 SIMD 和 相关 处 理 器 特性 ， 这 些 
问题 改进 了 内 部 函数 或 者 引入 了 新 的 内 部 函数 。 从 发 布 说 明 可 以 看 出 ， 因 为 加 入 了 增强 版 
的 内 部 函数 ， 所 以 下 列 问题 已 经 修复 并 关闭 : 

。 循环 后 部 标记 向 量 ， 

。 超 字 循 环 展开 分 析 ，; 

。 多 版 本 化 的 边界 检查 消除 ， 

。 支持 向 量化 双 精 度 的 sqrt; 

。 改进 的 并 行 流 的 向 量化 ， 

。 超 字 增强 ， 以 支持 Intel AVX CPU 上 的 向 量 条 件 移动 (CMovVD)。 

总 的 来 说 ， 应 该 将 内 部 函数 视 为 具体 点 上 的 修补 ， 而 不 是 通用 技术 。 其 优势 是 功能 强大 、 
轻 量 级 以 及 灵活 ， 但 因为 要 支持 多 个 不 同 的 架构 ， 所 以 潜在 的 开发 和 维护 成 本 很 高 。SIMD 
技术 是 有 用 且 受 欢迎 的 ， 但 很 显然 ， 这 种 方法 给 性 能 工程 师 带 来 的 回报 只 会 越 来 越 低 。 


15.1.5 ”新 版 G1 收集 器 

正如 7.4 节 所 讨论 的 ，G1 的 设计 是 为 了 同时 解决 几 个 问题 ， 它 提供 了 一 些 功能 ， 比 如 更 
易于 调 优 和 更 好 地 控制 停顿 时 间 。 在 Java 9 中 ， 它 成 为 默认 的 垃圾 收集 器 。 这 意味 着 从 
Java 8 迁移 到 Java 9 的 应 用 程序 ， 就 算 没 有 明确 选择 收集 器 ， 垃 圾 收集 算法 也 会 改变 。 不 
仅 如 此 ，Java 9 中 的 G1 版 本 也 与 Java 8 中 的 不 同 。 

Oracle 声称 ， 在 其 基准 测试 中 ， 新 版 本 的 性 能 大 大 优 于 Java 8 中 的 现 有 版 本 。 然 而 ， 这 并 
没有 得 到 任何 公开 发 表 的 结果 或 研究 的 支持 ， 目 前 我 们 最 多 只 有 坊间 证 据 。 

希望 大 多 数 应 用 程序 不 会 受到 这 种 算法 变化 带 来 的 负面 影响 。 然 而 ， 如 果 原 来 使 用 的 是 
Java 8 的 默认 收集 器 或 G1， 而 在 迁移 到 Java 9 之 后 ， 性 能 受到 了 影响 ， 那 么 所 有 这 些 应 用 
程序 都 应 该 做 一 个 完整 的 性 能 测试 。 

































































15.2 ”Java 10 和 未 来 版 本 


在 编写 本 书 时 ，Java 9 刚刚 发 布 。 因 而 Java 平台 的 开发 工作 现 已 完全 转向 了 下 一 个 版 本 ， 
即 Java 10。 本 节 首 先 讨论 将 在 下 一 个 版 本 中 生效 的 新 发 布 模式 ， 然 后 再 介绍 目前 已 知 的 
Java 10 的 情况 。 


15.2.1 新 的 发 布 流 程 


就 在 Java 9 发 布 的 前 几 天 ，Oracle 宣布 了 一 个 全 新 的 Java 发 布 模式 ， 该 模式 将 从 Java 10 
开始 进行 。 过 去 Java 新 版 本 的 发 布 都 是 由 功能 驱动 的 ， 针 对 特定 版 本 进行 了 大 的 改动 ， 必 
要 时 会 推迟 发 布 直到 重要 特性 准备 就 绪 。 这 种 发 布 方式 导致 Java 9 的 发 布 时 间 严 重 推迟 ， 
同时 也 使 Java 8 受到 了 影响 。 

特性 驱动 的 发 布 周期 也 对 Java 平台 的 整体 开发 速度 产生 了 更 次 层次 的 影响 。 由 于 制作 和 全 
而 测试 一 个 版 本 所 需要 的 周期 较 长 ， 因 此 关键 特性 实际 上 会 阻碍 其 他 较 小 特性 的 发 布 。 在 
开发 周期 临近 结束 时 发 布 一 个 版 本 ， 这 意味 着 源码 库 极 有 可 能 在 可 用 的 开发 周期 中 处 于 锁 
定 或 半 锁 定 的 状态 。 

从 Java 10 开始 ， 该 项 目 已 经 转向 了 严格 的 基于 时 间 的 模式 。 每 6 个 月 就 会 发 布 一 个 包含 
新 特性 的 Java 新 版 本 。 这 些 版 本 被 称 为 特性 版 本 ， 相 当 于 原 有 模式 中 的 主要 版 本 。 


特性 版 本 通常 不 会 像 原来 的 主要 版 本 那样 包含 很 多 的 新 功能 或 新 变化 。 但 无 
论 如 何 ， 主 要 功能 有 时 仍 将 在 某 个 特性 版 本 中 出 现 。 













































































Oracle 还 将 为 一 些 特 性 版 本 提供 长 期 支持 〈long-term support，LTS) 版 本 ， 并 只 用 这 样 的 
版 本 作为 其 专 有 JDK。 所 有 其 他 版 本 都 将 是 OpenJDK 二 进 制 版 本 ， 使 用 GNU 公共 许可 证 
(GPL) 类 路 径 除 外 。 开 源 的 Java 构建 一 直 以 来 都 使 用 该 许可 。 其 他 厂商 可 能 支持 他 们 自 
己 的 二 进 制版 本 ， 也 可 能 支持 LTS 以 外 的 版 本 。 























15.2.2 Java 10 


在 编写 本 书 时 ，Java 10 的 范围 还 没有 完全 确认 并 锁定 。 因 此 ， 从 现在 到 发 布 之 前 ， 其 范围 
和 内 容 仍 有 可 能 发 生 重大 变化 。 例 如 ， 在 Java 9 发 布 后 的 几 周 内 ， 人 们 就 曾 公 开 讨 论 过 未 
来 将 使 用 的 版 本 编号 机 制 。 

新 的 JVM 特性 或 增强 都 是 通过 Java 增强 过 程 (Java enhancement process) 来 进行 跟踪 的 。 
每 个 JDK 增强 提案 (JDK Enhancement Proposal，JEP) 都 有 一 个 方便 追踪 的 编号 。 如 下 是 
将 作为 Java 10 的 一 部 分 所 发 布 的 主要 特性 ， 并 非 所 有 的 特性 都 与 性 能 有 关 ， 甚 至 有 些 不 
直接 面向 开发 人 员 : 

。 286: 局 部 变量 类 型 推导 ， 

。 296: 将 JDK 源 代 码 从 多 个 仓库 (forest) 合并 到 一 个 仓库 ， 

。 304: 垃圾 收集 器 接口 ; 
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。 307: G1 的 并 行 Full GC， 
。 310: 应 用 程序 类 数据 共享 ， 
。 312: 线程 局 部 握手 。 


JEP 286 允许 开发 人 员 在 局 部 变量 声明 中 减少 一 些 样 本 代码 ， 如 下 代码 在 Java 中 已 经 是 合 
法 的 : 


var list = new ArrayList<String>(); // 推导 ArrayList<String> 
var stream = list.stream(); // 推导 Stream<String> 


这 种 语法 只 能 用 于 带 初 始 化 的 局 部 变量 ， 以 及 for 循环 中 的 局 部 变量 。 当 然 ， 这 完全 是 在 
源码 编译 器 中 实现 的 ， 对 字 节 码 或 性 能 没有 实际 影响 。 尽 管 如 此 ， 对 这 一 变化 的 讨论 和 反 
应 还 是 说 明了 语言 设计 的 一 个 重要 方面 ， 即 以 函数 式 程序 员 和 计算 机 科学 家 Philip Wadler 
的 名 字 命 名 的 Wadler 定律 : 
对 一 种 语言 特性 争论 的 情绪 激烈 程度 会 随 着 以 下 几 个 方面 的 变化 而 增加 : 语义 、 
向 法 、 词 法 以 及 注释 。 
在 其 他 的 变化 中 ，JEP 296 纯粹 是 JDK 源 代码 的 整理 ，JEP 304 增加 了 不 同 垃圾 收集 器 的 代 
码 隔离 ， 并 在 JDK 构建 中 为 垃圾 收集 器 引入 了 一 个 清晰 的 接口 。 这 两 个 变化 对 性 能 都 没有 
任何 影响 。 
剩 下 的 3 个 变化 或 多 或 少 都 会 对 性 能 产生 一 定 的 影响 。JEP 307 解决 了 G1 垃圾 收集 器 之 前 
没 解决 的 一 个 问题 ， 如 果 它 不 得 不 回 退 到 Full GC， 那 么 性 能 会 变 得 非常 精 粒 。 从 Java 9 
开始 ， 当 前 G1 的 Full GC 的 实现 使 用 的 是 单线 程 〈 即 串 行 ) 标记 - 清除 - 压缩 算法 。JEP 
307 的 目的 是 将 该 算法 并 行 化 ， 以 便 在 G1 的 Full GC 万 一 发 生 时 ， 有 与 并 发 收集 相同 数量 
的 线程 可 用 。 


JEP 310 扩展 了 Java 5 引入 的 一 个 叫 作 类 数据 共享 (class-data sharing，CDS) 的 功能 。 其 
理念 是 ，JVM 记录 一 组 类 ， 并 将 其 处 理 成 一 个 共享 的 归档 文件 。 在 下 一 次 运行 时 ， 可 以 通 
过 内 存 映 射 加 载 该 文件 来 减少 启动 时 间 。 当 多 个 JVM 在 同一 主机 上 运行 时 ， 它 还 可 以 跨 
JVM 共享 ， 从 而 减少 整体 的 内 存 占用 。 

到 Java 9 为止， CDS 还 只 允许 启动 类 加 载 器 加 载 归 档 文件 。 这 个 JEP 的 目的 是 扩展 这 种 
行为 以 允许 应 用 程序 和 自 定 义 类 加 载 器 使 用 归档 文件 。 该 特性 确实 存在 ,但 目前 只 能 在 
Oracle JDK 中 使 用 ， 而 不 能 在 OpenJDK 中 使 用 。 因 此 ， 这 个 JEP 本 质 上 是 将 该 特性 从 私 
有 的 Oracle 源码 中 转移 到 开放 的 仓库 中 。 


最 后 ，JEP 312 为 提高 虚拟 机 性 能 商定 了 基础 ， 它 使 得 在 应 用 程序 线程 上 执行 回调 而 无 须 
执行 全 局 虚拟 机 安全 点 成 为 可 能 。 这 意味 着 JVM 可 以 停止 单个 线程 ， 而 不 是 所 有 线程 。 
这 一 改变 将 使 如 下 这 些 改进 成 为 可 能 : 

。 减少 获取 栈 轨迹 采样 的 影响 ; 

。 通过 减少 对 信号 的 依赖 性 ， 实 现 更 好 的 栈 轨迹 采样 ; 

。 在 撤销 偏向 锁 时 ， 可 以 仅 停 掉 个 别 线程 来 改进 偏向 锁 ， 

。 从 JVM 中 移 除 一 些 内 存 屏 障 。 










































































总 的 来 说 ，Java 10 不 太 可 能 再 有 任何 大 的 性 能 改进 ， 相 反 ， 它 代表 的 是 新 的 、 更 频 党 的 和 
渐进 式 发 布 周 期 的 第 一 个 版 本 。 


15.3 ” Java 9 及 更 高 版 本 中 的 Unsafe 


任何 关于 Java 未 来 的 讨论 ， 必 须 提 到 有 关 sun.misc.Unsafe 类 及 相关 副作用 的 和 争议。 正如 
在 12.3 节 中 看 到 的 ， 虽然 Unsafe 是 一 个 内 部 的 类 ， 并 不 是 标准 API 的 一 部 分 ， 但 在 Java 8 
中 已 经 成 为 一 个 事实 上 的 标准 。 

从 库 开 发 人 员 的 角度 来 看 ，Unsafe 包含 了 一 系列 安全 程度 不 同 的 功能 。 虽 然 用 于 访问 CAS 
硬件 的 方法 基本 上 是 安全 的 ， 但 不 是 标准 的 。 而 其 他 的 方法 则 是 不 安全 的 ， 包 括 相 当 于 
指针 算术 之 类 的 方法 。 但 是 ， 有 些 “ 完 全 不 安全 ”的 功能 无 法 通过 其 他 任何 方式 获得 。 
Oracle 将 这 些 功能 称 为 关键 的 内 部 API， 在 相关 JEP 中 已 有 讨论 。 

主要 的 问题 是 ， 如 果 sun.misc.Unsafe 及 相关 类 中 的 革 些 特性 没有 替代 方案 ， 那 主要 的 村 
架 和 库 都 将 无 法 继续 正常 工作 ， 这 进而 又 会 间接 影响 到 每 个 使 用 各 种 框架 的 应 用 程序 ， 并 
且 在 现代 环境 中 ， 这 基本 上 也 会 影响 生态 系统 中 的 每 个 应 用 程序 。 

Java 9 添加 了 --illegal-access 运行 时 开关 ， 以 控制 这 些 API 在 运行 时 的 可 访问 性 。 这 些 
关键 的 内 部 API 计划 在 未 来 的 版 本 中 通过 替代 方案 来 支持 ， 但 在 Java 9 发 布 之 前 不 可 能 实 
现 这 一 计划 。 因 此 ， 必 须 维护 对 以 下 类 的 访问 : 


sun.misc.{Signal,SignalHandler} 








TH 























sun.misc.Unsafe 
sun.reflect.Reflection::getCallerClass(int) 
sun.reflect.ReflectionFactory 
。 Ccom.sun.nio.file.{ExtendedCopyOption,ExtendedOpenOption, Extended WatchEventModi- 
fier,SensitivityWatchEventModifier} 


在 Java 9 中， 这 些 API 被 定义 在 JDK 特有 的 模块 jdk.unsupported 中 ， 并 通过 该 模块 导 
出 ， 其 声明 是 这 样 的 : 
module jdk.unsupported { 
exports sun.misc; 


exports sun.reflect; 
exports com.sun.nio.file; 

















opens sun.misc; 
opens sun.reflect; 


} 
尽管 Oracle 提供 了 这 种 临时 性 支持 〈 还 是 相当 勉强 的 )， 但 很 多 框架 和 库 在 向 Java 9 迁移 
时 还 是 会 遇 到 问题 ， 而 且 Oracle 也 没有 宣布 对 关键 内 部 API 的 这 种 临时 性 支持 何 时 失效 。 
话 虽 如 此 ， 我 们 在 创建 这 些 API 的 替代 品 方面 已 经 取得 了 明显 进展 。 例 如 ， 在 JEP 259 中 
定义 的 栈 人 壳 历 API 可 以 使 用 getCatLterCtass() 功能 。 另 外 还 有 一 个 非常 重要 的 新 API， 其 
目的 是 开始 取代 来 自 Unsafe 中 的 特性 ， 接 下 来 将 看 到 。 
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Java 9 中 的 VarHandles 
我 们 已 经 在 前 面 章节 介绍 了 方法 句柄 和 Unsafe。 
方法 句柄 提供 了 一 种 方式 ， 可 以 直接 操作 指向 方法 的 可 执行 引用 ， 但 最 初 的 功能 对 字段 来 


说 并 不 全 

















的 数据 访问 模式 超出 了 这 些 简单 用 例 。 
在 Java 9 中 ,方法 句柄 已 经 被 扩展 到 包括 在 JEP 193 中 定义 的 变量 句柄 (variable handle ) 。 


该 提案 的 目标 之 一 是 填补 上 男 





























而 ， 因 为 它 只 提供 了 getter 和 setter 的 访问 方式 。 这 还 不 够 ， 因 为 Java 平台 提供 








ij 提 到 的 空白 ， 并 且 在 这 个 过 程 中 ， 为 Unsafe 中 的 API 提供 


安全 的 替代 品 。 有 具体 的 替代 品 包括 CAS 功能 和 对 volatile 字段 和 数组 的 访问 。 另 一 个 目 
标 是 作为 IMM 更 新 的 一 部 分 ， 允 许 对 JDK 9 中 可 用 的 内 存 顺序 模式 进行 低级 访问 。 


接 下 来 快速 看 一 个 演示 如 何 替换 Unsafe 中 的 方法 的 简单 示例 : 


public class AtomicIntegerWithVarHandles extends Number { 


private volatile int vaLue = 0; 
private static final VarHandle V; 


static { 


try { 
MethodHandles.Lookup L = MethodHandLes.Lookup(); 


V = l.findVarHandle(AtomicIntegerWithVarHandles.class, "value", 


int.class); 
} catch (ReflectiveOperationException e) { 
throw new Error(e); 


} 

} 

public final int getAndSet(int newValue) { 
int v; 
dof{ 


Vv = (int)V.getVolatile(this); 
} while (!V.compareAndSet(this, v, newValue)); 


return v; 
} 
ff is 








这 段 代 码 示例 基本 上 等 同 于 我 们 在 12.3 市 看 到 的 原子 整数 的 示例 ， 该 示例 演示 了 如 何 用 
VarHandle 替代 不 安全 技术 的 使 用 。 


在 编写 本 书 时 ， 由 于 循环 依赖 ， 实 际 的 AtomicInteger 类 还 没有 被 迁移 到 使 用 VarHandle 


机 佣 





， 仍 然 依赖 于 Unsafe。 尽 管 如 此 ，Oracle 强烈 建议 所 有 的 库 和 村 


持 机 制 。 


15.4 _ Valhalla 项 目 和 值 类 型 


Valhalla 项 目的 使 命 是 成 为 “一 个 探索 和 孵化 高 级 的 Java 虚拟 机 和 语言 候选 特性 的 试验 
场 ”。 该 项 目的 主要 目标 如 下 : 


E 架 尽快 迁移 到 新 的 支 
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。 使 JVM 内 存 布局 行为 与 现代 硬件 的 成 本 模型 相 匹配 ; 

。 扩展 泛 型 以 支持 对 所 有 类 型 进行 抽象 ， 包 括 基本 类 型 、 值 ， 其 至 void 

。 使 现 有 的 库 (特别 是 JDK) 能 在 保持 兼容 性 的 前 提 下 持续 演进 ， 以 充分 利用 这 些 特性 。 
这 段 描述 提 到 了 该 项 目 最 引 人 注 目的 工作 之 一 : 在 JVM 中 探索 值 类 型 的 可 能 性 。 


回想 一 下 ， 直 到 第 9 个 版 本 (包括 版 本 9) ，Java 都 只 有 两 种 类 型 的 值 : 基本 类 型 和 对 象 引 
用 。 换 名 话说 ，Java 环境 有 意 没 有 提供 对 内 存 布局 的 底层 控制 。 作 为 特例 ， 这 意味 着 Java 
没有 像 结构 体 (struct) 这 样 的 东西 ， 任 何 复合 数据 类 型 都 只 能 通过 引用 来 访问 。 


为 了 理解 这 种 做 法 的 影响 ， 来 看 看 数组 的 内 存 布 局 。 图 15-1 显示 了 一 个 由 基本 类 型 int 组 
成 的 数组 。 由 于 这 些 值 不 是 对 象 ， 因 此 它们 被 安排 在 相 邻 的 内 存 位 置 上 。 


























int[] 


2 :上 加 加 











15-1:， int 数组 


相 比 之 下 ， 因 为 装 箱 的 整 型 数 〈 即 Integer) 是 一 个 对 象 ， 所 以 要 通过 引用 来 查找 。 这 就 
意味 着 一 个 Integer 对 象 的 数组 将 是 一 个 引用 的 数组 ， 如 图 15-2 所 示 。 


Integer[] 2 加 




















15-2， Integer 数组 


20 多 年 来 ，Java 平台 一 直 是 按照 这 种 内 存 布局 模式 来 运作 的 。 甚 优势 是 简单 ， 但 代价 是 性 
能 上 的 损失 : 处 理 对 象 的 数组 不 可 避免 有 间接 访问 ， 以 及 随 之 而 来 的 缓存 未 命中 。 
因此 ， 许 多 关注 性 能 的 程序 员 希 望 能 够 定义 内 存 布局 更 高 效 的 类 型 。 这 还 包括 为 消除 每 个 
复合 数据 项 需要 一 个 完整 对 象 头 所 带 来 的 开销 。 
例如 ， 三 维 空间 中 的 一 个 点 用 Point3D 表示 ， 实 际 上 只 包含 了 3 个 空间 坐标 。 一 直到 Java 9， 
这 样 的 类 型 都 只 能 用 一 个 具有 3 个 字段 的 对 象 类 型 来 表示 。 

public final cLass Point3D { 


private final double x; 
private final double y; 
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private final double z; 


public Point3D(double a, double b, double c) { 
X = a 

y 

€ 


b; 
2 





} 
// getter 方 法 和 其 他 样板 代码 略 


因此 ， 一 个 点 的 数组 的 内 存 布局 将 如 图 15-3 所 示 。 


Point3D[] NN27[-1hel 


























15-3:， Point3D 数组 

在 处 理 这 个 数组 时 ， 每 个 条 目 必 须 通过 一 次 额外 的 间接 访问 才能 获得 每 个 点 的 坐标 。 对 于 
数组 中 的 每 个 点 ， 这 有 可 能 引发 一 次 缓存 未 命中 ， 而 不 能 带 来 任何 好 处 。 

此 外 ， 对 象 的 同一 性 (identity) 对 于 Point3D 类 型 来 说 没有 意义 。 这 意味 着 只 有 当 对 象 的 
字段 都 相等 时 ， 它 们 才 是 相等 的 。 显 然 ， 这 就 是 所 谓 的 Java 生态 系统 中 值 类 型 的 含义 。 
如 果 这 个 概念 可 以 在 JVM 中 实现 ， 那 么 对 于 空间 点 这 样 的 简单 类 型 ， 图 15-4 所 示 的 内 存 
布局 (实际 上 是 一 个 struct 数组 ) 将 更 高 效 。 














Point3D[] ( 值 类 型 ) 





NE 


15-4;“ 类 结构 体 ”Point30D 的 数组 














不 仅 如 些 ， 随 后 还 出 现 了 其 他 的 可 能 性 ， 比 如 用 户 定义 的 类 型 ， 其 行为 方式 与 内 置 的 基本 
类 型 类 似 。 

然而 ， 这 个 领域 还 存在 着 一 些 关键 的 概念 上 的 问题 ， 其 中 有 一 个 与 Java 5 加 入 泛 型 时 所 做 
的 设计 决策 有 关 。 事 实 上 Java 类 型 系统 缺乏 一 个 顶层 类 型 ， 所 以 0bject 和 int 没有 一 个 
共同 的 父 类 。 也 可 以 说 ，Java 的 类 型 系统 不 是 单 根 类 型 。 
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其 结果 是 ，Java 的 泛 型 只 能 用 于 引用 类 型 (0bject 的 子 类 型 ) ， 设 有 办 法 为 基本 类 型 构造 
一 个 同样 意义 的 东西 ， 比 如 List<int>。Java 使 用 类 型 擦 除 (type erasure) 来 实现 向 后 兼容 
的 泛 型 类 型 而 不 是 引用 类 型 ， 虽 然 这 种 机 制 饱 受 诉 病 ， 但 缺乏 顶层 类 型 ， 进 而 导致 缺乏 基 
本 类 型 的 集合 ， 并 不 是 该 机 制 的 责任 。 
如 果 要 扩展 Java 平台 以 引入 值 类 型 ， 那么 自然 会 出 现 值 类 型 是 否 可 以 用 作 类 型 参数 值 的 
问题 。 如 果 不 能 ， 这 似乎 会 极 大 限制 其 实用 性 。 因 此 ， 值 类 型 的 设计 总 是 包含 这 样 一 个 假 
设 : 它们 作为 增强 形式 的 泛 型 中 的 类 型 参数 值 是 有 效 的 。 
在 编写 本 书 时 ， 该 思路 带 来 了 这 样 的 设计 ， 即 JVM 的 类 和 接口 类 型 应 该 有 以 下 3 种 不 同 
的 类 型 : 

引用 类 型 (R) ， 表 示 对 一 个 类 的 实例 的 引用 ， 它 有 一 个 实际 的 对 象 ， 或 者 为 null， 
。 值 类 型 (Q) ， 是 缺乏 同一 性 的 值 类 的 实例 ; 
。 通用 类 型 (U) ， 可 以 是 R 或 9。 
这 就 引出 了 一 个 问题 : 应 该 如 何 理解 现 有 的 类 文件 中 的 类 型 信息 ? 也 就 是 说 ， 现 有 的 上 类 
型 (对 应 于 Java 9 类 文件 中 的 当前 类 型 ) 应 该 是 R 类 型 、 还 是 ~ 类型， 抑或 是 简单 当 作 我 
们 从 未 见 过 的 Q 类 型 ? 
出 于 兼容 性 考虑 ， 同 时 也 是 为 了 让 我 们 能 够 将 泛 型 的 定义 扩展 到 包含 Q 类 型 ，L 类 型 会 被 
理解 为 U 类型， 而 不 是 R 类 型 。 
这 是 一 个 相当 早期 的 原型 ， 仍 然 有 很 多 设计 问题 需要 和 解决， 比如 ， 值 类 型 在 虚拟 机 级 别 上 
是 否 需 要 宽度 可 变 的 值 。 
在 Java 9 中， 在 虚拟 机 级 别 上 的 所 有 类 型 都 是 宽度 固定 的 值 。 因 为 基本 类 型 是 1、2、4 或 
8 字 节 宽 ， 对 象 引 用 是 指针 ， 所 以 它们 是 1 个 机 器 字 宽 。 在 现代 硬件 上 ， 这 意味 着 根据 机 
器 硬件 架构 的 不 同 ， 引 用 可 以 是 32 位 或 64 位 。 
增加 值 类 型 是 否 意味 着 字 节 码 需要 容纳 宽度 可 变 的 类 型 ? 在 字 节 码 中 是 否 还 有 空间 来 容纳 
所 需要 的 指令 ?就 目前 来 看 ， 只 需要 增加 以 下 两 个 新 的 操作 码 : 
。 vdefautt， 生 成 值 类 的 实例 ， 默 认为 0 类 型 ， 
。 withfieLd， 生 成 一 个 新 的 输入 类 型 的 值 ， 并 在 遇 到 输入 为 nutl 或 者 非法 值 时 抛 出 异常 。 
有 些 字 节 码 需要 改造 以 处 理 新 的 Q 类 型 ， 并 且 在 虚拟 机 级 别 上 也 需要 做 大 量 的 工作 ， 从 而 
使 核心 库 在 保持 兼容 的 前 提 下 继续 演进 。 
Valhalla 项 目 可 能 是 基于 性 能 方面 的 考虑 来 推进 的 ， 但 更 好 的 方法 是 在 不 放弃 性 
能 的 前 提 下 ,增强 抽象 、 封 装 、 安 全 、 表 现 力 和 可 维护 性 。 













































































Brian Goetz 

由 于 发 布 时 间 表 的 变化 ， 目 前 还 不 清楚 Java 的 哪个 版 本 最 终 会 将 值 类 型 作为 产品 特性 引入 
进来 。 作 者 最 好 的 猜测 是 ， 它 们 会 在 2019 年 的 某 个 版 本 中 出 现 ， 但 这 尚未 得 到 Oracle 的 
证 实 。 
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15.5 Graal 和 Truffle 


HotSpot 中 的 C2 编译 器 已 经 取得 了 巨大 的 成 功 。 不 过 近年 来 它 的 回报 率 明 显 下 降 ， 并 且 这 
款 编译 器 在 过 去 儿 年 没有 什么 大 的 改进 。 无 论 从 哪个 角度 来 说 ，C2 都 已 经 走 到 了 生命 周 
期 的 尽头 ， 现 在 必须 被 取代 了 。 


目前 想 要 交付 的 新 产品 的 研究 是 围绕 Graal 和 Truffle 展开 的 。 前 者 是 一 个 专门 的 JIT 编译 
器 ， 后 者 是 一 个 解释 器 生成 器 ， 用 于 支持 JVM 运行 时 上 的 各 种 语言 。 


JIT 编译 堪 的 一 个 潜在 的 改进 途径 是 ，C2 编译 器 是 用 C++ 编写 的 ， 这 就 暴露 了 一 些 汗 在 的 
严重 问题 。 当 然 ， 因 为 C++ 是 一 种 使 用 手动 内 存 管 理 的 不 安全 的 语言 ， 所 以 C2 编译 器 代 
码 中 的 错误 会 导致 虚拟 机 崩溃 。 不 仅 如 此 ， 由 于 C2 中 的 代码 一 直 在 反复 修改 和 迁 代 ， 所 
以 代码 很 难得 到 维护 和 扩展 。 


为 了 提升 ，Graal 正在 尝试 另 一 种 方法 ， 它 是 一 个 用 Java 为 JVM 编写 的 JIT 编译 器 。JVM 
用 来 与 Graal 对 话 的 接口 称 为 JVM 编译 器 接口 (JVMCI) ， 并 以 JEP 243 的 形式 添加 到 平 
人 台中。 这 人 允许 你 以 Java 接口 形式 向 JVM 中 插入 一 个 JIT 编译 器 ， 其 方式 类 似 于 将 Java 代 
理 插 入 到 JVM 中 。 


该 项 目的 观点 是 ，JIT 编译 器 其 实 只 需要 能 够 接受 JVM 字 节 码 并 生成 机 器 码 就 可 以 了 。 在 
底层 ， 编 译 器 只 是 将 一 个 字 节 byte[] ( 字 节 码 ) 转换 为 另 一 个 byte[] (机 器 码 )， 所 以 这 
可 以 通过 Java 实现 。 


这 种 Java-in-Java 的 方法 有 很 多 好 处 ， 包 括 简 单 和 内 存 安全 ， 以 及 能 够 使 用 标准 的 Java 工 
有 具 链 ， 如 IDE 和 调试 器 ， 而 不 必要 求 编译 颖 开发 人 员 必 须 掌 握 次 奥 难 懂 的 C++ 技能 。 
这 些 优势 使 Graal 能 够 实现 强大 的 新 优化 ， 如 10.5.3 节 曾 提 过 的 部 分 逃逸 分 析 ， 这 在 C2 中 
是 做 不 到 的 。 还 有 一 个 优势 是 Graal 可 以 让 团队 为 自己 的 应 用 程序 修改 部 分 内 容 ， 比 如 为 
定制 硬件 开发 自 定义 的 内 部 函数 ， 或 者 开发 自己 的 优化 遍 '。 

Trufflie 是 一 个 为 JVM 上 的 编程 语言 开发 解释 器 的 框架 。 它 被 设计 为 一 个 配合 Graal 工作 的 
库 ， 通 过 使 用 一 种 叫 二 寸 投 影 (futamuru projection) 的 技术 ， 可 以 为 输入 语言 从 只 有 解释 
器 自动 生成 一 个 高 性 能 的 JIT 编译 器 。 这 是 一 种 来 自 计 算 机 科学 学 术 领 域 的 技术 ， 也 称 作 
部 分 特 化 (partial specialization) ， 最 近 它 在 真实 系统 中 的 应 用 更 加 突出 了 (不 过 有 些 思想 
在 Python 的 PyPy 实现 中 已 经 使 用 了 好 几 年 )。 


JVM 上 一 些 现 有 的 语言 实现 ， 比 如 JRuby、Jython 和 Nashorn， 都 能 在 运行 时 生成 字 节 码 。 
Truffle 提供 了 一 种 新 的 字 节 码 生 成 方式 。 到 目前 为 止 的 性 能 测试 表明 ， 与 之 前 方案 相 比 ， 
Truffle 和 Graal 的 组 合 可 能 会 带 来 更 好 的 性 能 。 

所 有 这 些 工 作 综合 起 来 就 是 新 的 Metropolis 项 目 。 它 致力 于 从 HotSpot 的 JIT 编译 器 和 可 
能 的 解释 器 开始 ， 用 Java 重 写 更 多 的 虚拟 机 组 件 。 


Metropolis/Graal 技术 已 经 出 现在 Java 9 中 ， 并 正式 交付 ， 不 过 它 在 很 大 程度 上 依然 是 实验 
















































































注 1: 遍 (pass) 是 编译 理论 中 的 一 个 概念 ， 是 对 源 程序 或 其 等 价 的 中 间 语 言 程序 从 头 到 尾 扫描 一 次 并 完成 
规定 任务 的 过 程 。 一 一 译 者 注 








性 的 。 启 用 这 款 新 JIT 编译 器 的 开关 是 : 
-XX:+UnLockExperimentaLVMOptions -XX:+EnableJVMCI -XX:+UseJVMCICompiler 


Java 9 中 还 有 一 个 地 方 会 用 到 Graal， 即 预先 编译 模式 。 这 种 模式 直接 将 Java 编译 成 机 器 
码 ， 其 方式 类 似 于 C 和 C++。jJava 9 包含 了 一 个 使 用 Graal 的 jatoc 命令 ， 该 命令 的 唯 
一 目标 是 加 快 启动 时 间 ， 直 到 正常 的 分 层 编译 可 以 取代 它 。 该 工具 目前 只 支持 单一 平台 
(Linux/ELF) 上 的 java.base 模块 ， 但 预计 在 接 下 来 的 几 个 Java 版 本 中 会 支持 更 多 平台 。 
为 了 从 Java 类 文件 中 创建 二 进 制 文件 ， 可 以 使 用 以 下 新 的 jaotc 工具 : 


jaotc --output libHelloWorld.so HelloWorld.class 
jaotc --output libjava.base.so --module java.base 


最 后 ，SubstrateVM 是 一 个 研究 项 目 (也 使 用 了 Graal) ， 它 进一步 实现 了 这 个 功能 ， 并 用 
Java 编写 的 整个 JVM 和 一 个 Java 应 用 程序 一 起 编译 ， 以 生成 一 个 单一 的 、 静 态 链接 的 原 
生 可 执行 文件 。 这 样 做 的 目的 是 生成 不 需要 安装 任何 形式 的 JVM 的 原生 二 进 制 文件 ， 而 
且 可 以 小 到 几 千 字 节 ， 并 在 儿 毫 秒 内 启动 。 


15.6 ” 字 节 码 的 未 来 方 回 


虚拟 机 中 最 大 的 变化 之 一 是 invokedynamic 的 到 来 。 这 个 新 字 市 码 打 开 了 重新 思考 如 何 编 
写 JVM 字 市 码 的 大 门 。 现 在 尝试 拓展 在 这 个 操作 码 中 使 用 的 技术 ， 从 而 为 平台 提供 更 大 
的 灵活 性 。 

例如 ， 回 顾 一 下 在 9.1 节 中 讲 到 的 tdc 和 const 的 区 别 。 乍 看 可 能 很 简单 ， 其 实 问题 复杂 
得 多 。 接 下 来 看 一 段 简单 的 代码 : 


public static final String HELLO = "Hello World"; 
public static final double PI = 3.142; 
































public void showConstsAndLdc() { 
Object o = null; 


int i = -1; 

tT a0 

Te 

0 = HELLO; 
double d = 0.0; 
d = PI; 


} 
这 会 生成 如 下 相当 直接 的 字 节 码 序列 : 


public void showConstsAndLdc(); 
Code: 
0: aconst_nuLL 
: astore_1 
: iconst_m1 
: istore 2 
: iconst_0 
: istore 2 


wm wmwP 请 
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6: iconst 1 

7: istore 2 

8: ldc #3 // String Hello World 
10: astore_1 

11: dconst_0 

12: dstore_3 

13: Ldc2_w #4 // double 3.142d 

16: dstore_3 

17: return 


现在 还 有 一 些 额 外 的 条 目 出 现在 常量 池 中 : 


#3 = String #29 // Hello World 
#4 = Double 3.142d 








#29 = Utf8 Hello World 


基本 的 模式 很 清晰 :“ 真 常量 ”以 const 指令 的 形式 出 现 ， 而 从 常量 池 加 载 的 则 用 tdc 指令 
表示 。 
前 者 是 一 小 部 分 有 限 的 常量 集 ， 比 如 基本 类 型 值 9、1 和 nuLL。 相 比 之 下 ， 任 何不 可 变 的 
值 都 可 以 看 作 能 用 tdc 加 载 的 常量 ， 而 且 最 近 的 Java 版 本 又 大 大 增加 了 可 以 放 到 常量 池 中 
的 不 同 常量 类 型 的 数目 。 
例如 ， 考 虑 一 下 这 上 段 Java 7 (或 更 高 版 本 ) 的 代码 ， 它 利用 了 11.7 市 中 介绍 的 方法 句柄 API: 
public MethodHandle getToStringMH() throws NoSuchMethodException, 
IllegalAccessException { 
MethodType mt = MethodType.methodType(String.class); 


MethodHandles.Lookup lk = MethodHandles.Tlookup(); 
MethodHandle mh = lk.findVirtual(getClass(), "toString", mt); 





return mh; 


} 


public void callMH() { 
try { 
MethodHandle mh = getToStringMH(); 
Object o = mh.invoke(this, null); 
System.out.println(o); 
} catch (Throwable e) { 
e.printSstackTrace(); 
} 
} 


为 了 解 方法 句柄 对 常 
子 中 : 


public void mh() throws Exception { 
MethodType mt = MethodType.methodType(void.class); 
MethodHandle mh = MethodHandles.lookup().findVirtual 
(BytecodepPatterns.class, "mh", mt); 





甩 


池 的 影响 ， 下 面 把 这 个 简单 的 方法 添加 到 前 面 ldc 和 const 的 例 














} 
它 会 生成 如 下 字 节 码 : 
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可 以 看 到 ， 这 里 包含 了 一 个 额外 的 Ldc， 用 于 加 载 BytecodePatterns.class 字面 常量 
还 包含 了 一 个 替代 用 的 void.class 对 象 ， 用 于 表示 java.lang.Void 类 型 。 不 过 类 常 


比 字符 串 或 基本 类 型 常量 有 趣 一 点 。 


public void mh() throws java.lang.Exception; 


Code: 
0: 
3 


18: 
19: 


} 





getstatic #6 
invokestatic #7 


: astore_1 
: invokestatic #8 


: ldc #2 
: lde #9 
: aload_1 


: invokevirtual #10 


astore 2 
return 








// Field java/lang/Void.TYPE:Ljava/lang/Class; 
// Method java/lang/invoke/MethodType.methodType: 
// (Ljava/lang/Class;)Ljava/lang/invoke/MethodType; 


// Method java/lang/invoke/MethodHandles .lookup: 
// ()Ljava/lang/invoke/MethodHandles$Lookup; 

// class optjava/bc/BytecodePatterns 

// String mh 


// Method java/lang/invoke/MethodHandles$Lookup. 
// findvirtuaL:(Ljava/Lang/CLass;Ljava/Lang/ 

// String;Ljava/lang/invoke/MethodType; )Ljava/ 
// lang/invoke/MethodHandle; 























这 并 不 是 全 部 ， 一 旦 方法 句柄 发 挥 作用 ， 将 对 常量 池 产 生 非 常 大 的 影响 。 我 们 可 以 看 
一 个 地 方 出 现 了 一 些 新 类 型 的 常量 池 条 目 : 


#58 


#59 
#60 


MethodType #22 
MethodHandle #6:#85 


MethodHandle #6:#84 // invokestatic java/lang/invoke/LambdaMetafactory. 


// metafactory:(Ljava/lang/invoke/MethodHandles 
// S$Lookup;Ljava/lang/String;Ljava/lang/invoke/ 
// MethodType;Ljava/lang/invoke/MethodType;Ljava/ 
// lang/invoke/MethodHandle;Ljava/lang/invoke/ 

// MethodType; )Ljava/lang/invoke/Callsite; 

// OV 

// invokestatic optjava/bc/BytecodePatterns . 

// lambda$ lambda$0:()V 





到 第 


这 些 新 类 型 的 常量 是 支持 invokedynamic 所 需要 的 ， 自 Java 7 以 来 ,平台 就 在 越 来 越 多 地 
使 用 该 技术 。 整 体 目 标 是 使 通过 invokedynamic 调用 的 方法 像 典 型 的 invokevirtual 调用 一 
样 具 有 很 好 的 性 能 ， 并 对 JIT 友好 。 
未 来 工作 的 其 他 方向 包括 探索 “常量 动态 化 ”(constant dynamic) 能 力 的 可 能 性 ， 虽 然 类 
似 于 invokedynamic， 但 它 是 用 于 在 链接 时 无 法 解析 但 在 第 一 次 遇 到 时 进行 计算 的 常量 池 
条 目 。 


预计 在 即将 到 来 的 Java 版 本 中 ，JVM 的 这 个 领域 仍 将 是 一 个 非常 活跃 的 研究 课题 。 


15.7 并 发 的 未 来 方 回 


正 女 
有 天 





[第 2 章 中 所 讨论 的 ，Java 的 主要 创新 之 一 就 是 引入 了 自动 内 存 管 理 
F 发 人 员 会 试图 为 内 存 的 手动 管理 





























E。 时 至 今日 ， 几 平 没 
l 关 护 ， 认 为 这 是 任何 新 编程 语言 者 应 该 使 用 的 积极 特性 。 


我 们 可 以 看 到 ， 在 Java 实现 并 发 的 演进 过 程 中 也 部 分 反映 了 这 一 点 。Java 线程 模型 的 最 
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初 设 计 是 ， 程 序 员 必 须 显 式 管理 所 有 线程 ， 可 变 状 态 (mutable state) 也 必须 用 锁 来 保 
护 ， 而 锁 本 质 上 是 一 种 协作 式 设 计 。 如 果 某 一 段 代码 没有 正确 实现 加 锁 方 案 ， 就 会 破坏 
对 象 状 态 。 








这 可 以 用 Java 线程 的 基本 原则 来 表达 ， 即 非 同步 代码 既 不 查看 也 不 关心 对 象 
上 的 锁 的 状态 ， 可 以 随意 访问 或 破坏 对 象 的 状态 。 





随 着 Java 的 发 展 ， 后 续 的 版 本 已 经 从 这 种 设计 转向 了 更 高 级 别 、 更 少 手动 操作 、 通 常 也 更 
安全 的 方法 一 一 有 效 地 实现 运行 时 托管 的 并 发 (runtime-managed concurrency ) 。 


最 近 宣 布 的 Project Loom 就 是 该 方法 的 一 种 尝试 。 与 目前 为 止 在 JVYVM 上 所 采用 的 并 发 实 
现 方 案 相 比 ， 这 个 项 目 希 望 在 更 低 的 层次 上 支持 JVM 并 发 。 核 心 Java 线程 的 本 质问 题 是 每 
个 线程 都 有 一 个 栈 。 这 样 成 本 很 高 ， 而 且 不 能 无 限制 地 扩展 。 一 旦 我 们 有 了 比如 说 10 000 
个 线程 ， 那 么 用 于 这 些 线程 的 内 存 就 会 达到 GB。 

还 有 一 种 解决 方案 是 后 退 一 步 ， 考 虑 男 一 种 方法 : 不 能 由 操作 系统 直接 调度 的 执行 单元 ， 
其 开销 更 低 ， 并 且 可 能 “大 部 分 时 间 是 空 闪 的 ”( 也 就 是 不 需要 执行 很 高 比例 的 挂钟 时 间 )。 
这 与 其 他 语言 (包括 基于 JVM 和 非 JVM 的 语言 ) 所 采取 的 方法 很 相似 。 在 很 多 情况 下 ， 
它们 有 更 底层 的 协作 式 构件 ， 如 goroutine、fiberer 和 continuingation 等 。 这 些 抽象 必须 是 
协作 式 而 不 是 抢占 式 的， 因为 操作 系统 看 不 见 它 们 的 协作 ， 而 且 它 们 也 没有 构建 自己 的 可 
调度 实体 。 

如 果 要 采用 这 种 方法 ， 则 需要 两 个 基本 组 件 : 被 调用 代码 的 表示 (比如 Runnable 或 类 似 类 
型 ) 以 及 调度 器 组 件 。 具 有 讽刺 意味 的 是 ， 虽 然 其 他 部 分 还 没有 到 位 ， 但 JVM 从 第 7 版 
开始 就 有 了 一 个 用 于 这 些 抽象 的 不 错 的 调度 组 件 。 


Fork/Join API (12.5.3 节 介 绍 过 ) 是 在 Java 7 中 提供 的 ， 因 为 它 基于 两 个 概念 : 可 执行 任 
务 的 递归 分 解 以 及 工作 窃取 (work stealing) ， 从 而 让 空闲 线程 可 以 从 更 繁忙 的 线程 的 队列 
中 获取 工作 。ForkJoinPool 执行 器 是 这 两 个 概念 的 核心 ， 负 责 实现 工作 窃取 算法 。 

其 实 对 于 大 多 数 任务 来 说 ， 递 归 分 解 并 不 是 非常 有 用 。 不 过 具有 工作 窃取 功能 的 执行 器 线 
程 池 仍 然 可 以 应 用 于 许多 不 同情 况 。 比 如 ，Akka Actor 框架 就 采用 了 ForkJoinPool 作为 其 
执行 器 。 

虽然 Project Loom 还 处 于 早期 阶段 ， 但 ForkJoinPool 执行 器 似乎 有 可 能 作为 这 些 轻 量 级 执 
行 对 象 的 调度 组 件 。 同 样 ， 将 这 种 能 力 标准 化 到 虚拟 机 和 核心 库 中 可 以 大 大 减少 对 外 部 库 
的 使 用 需求 。 


15.8 ”总结 


自 第 一 个 版 本 发 布 以 来 ，Java 已 经 发 生 了 很 大 的 变化 ， 即 从 一 开始 并 没有 被 明确 设计 为 一 
种 高 性 能 语言 ， 到 现在 已 经 成 为 这 样 的 语言 。 即 使 Java 已 扩展 到 很 多 新 应 用 领域 ， 但 是 核 
心 的 Java 平台 、 社 区 和 生态 系统 仍然 保持 着 健康 和 活力 。 















































像 Project Metropolis 和 Graal 等 大 胆 的 新 举措 ， 正 在 重新 塑造 核心 虚拟 机 。invokedynamic 
也 让 Java 走出 了 其 演进 的 舒适 区 ， 为 下 一 个 十 年 重新 改造 自己 。Java 已 经 表明 它 不 怕 进 行 
大 胆 的 更 改 ， 比 如 增加 值 类 型 以 及 重新 解决 泛 型 存在 的 复杂 问题 。 


Java/JVM 性 能 是 一 个 非常 有 活力 的 领域 ， 本 章 中 我 们 看 到 了 性 能 在 很 多 领域 中 仍 在 取得 
进步 。 还 有 很 多 其 他 的 项 目 我 们 没有 时 间 提 及 ， 包 括 Java/ 原生 代码 交互 (project panama) 
和 新 的 垃圾 收集 器 (如 Oracle 的 ZGC ) 。 


因此 ， 本 书 所 讲 的 内 容 并 不 全 面 ， 因 为 性 能 工程 师 还 有 很 多 东西 需要 了 解 。 尽 管 如 此 ， 
我 们 还 是 希望 它 能 够 对 读者 理解 Java 性 能 世界 有 所 帮助 ， 也 为 读者 的 性 能 之 旅 提供 一 些 
路 标 。 
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必 避 人 小 I i 
Java 性 能 优化 实践 JVM 调 优 策略 . 工具 与 技巧 
在 当前 的 互联 网 开发 模式 下 ， 系 统 访 问 量 日 增 、 代 码 腔 肿 ， 各 种 性 能 问 
题 纷 至 理 来 。 性 能 优化 作为 一 个 常 谈 常 新 的 话题 ， 受 到 越 来 越 多 开发 者 
的 关注 。 而 Java 是 一 门 使 用 广泛 的 语言 ， 社 区 生态 中 积 失 了 大 量 宝贵 的 
性 能 优化 经 验 


作为 一 本 性 能 调 优 方面 的 实用 指南 ， 本 书 从 实验 科学 的 角度 将 JVM 调 优 
的 技术 原理 与 方法 论 相 结合 ， 并 在 此 基础 上 提供 了 可 选择 的 工具 。 通 过 
对 各 方面 的 深入 研究 ， 本 书 能 让 使 用 复杂 技术 栈 的 中 高 级 Java 技 术 专 家 
以 量化 和 可 验证 的 方法 优化 Java 应 用 程序 性 能 。 


了 解 Java 的 原则 和 技术 如 何 充分 利用 现代 硬件 和 操作 系统 
探究 一 些 性 能 测试 以 及 困扰 团队 的 常见 反 模 式 

理解 测量 Java 性 能 数据 的 陷阱 以 及 微 基准 测试 的 缺点 

深入 研究 JVM 垃 圾 收集 日 志 、 监 控 、 调 优 和 工具 

探究 JIT 编 译 和 Java 语 言 性 能 技术 

学 习 Java 集 合 类 API 与 性 能 有 关 的 方面 ， 从 整体 上 理解 Java 并 发 
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“在 过 去 的 20 多 年 里 ， 我 花 了 很 


多 时 间 来 理解 JVM 的 内 部 细 
节 ， 在 本 书 中 也 学 到 了 不 少 知 
识 。 本 书 文笔 流畅 ， 易 于 阅读 ， 
包含 了 大 量 对 新 手 程序 员 和 专 
家 都 有 帮助 的 信息 。 不 管 你 是 
在 运行 包含 200 个 核心 的 专用 
大 型 机 器 ， 还 是 运行 资源 受 限 
的 Linux 容 器 ， 本 书 都 可 以 帮 你 
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挖掘 出 Java 应 用 程序 的 巨大 性 
能 。” 
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